资讯列表

分类

标签

大规模3D场景2分钟生成，效率提升30倍！中科院发布空间智能新框架

「空间智能」和「世界模型」是最近学术界和产业界非常火热的研究方向，走向虚实结合、模拟世界机理的关键一步，就是创造出一个生动的虚拟世界。然而，想要打造丰富多样、充满细节，同时具备高度可编辑性和物理真实性的3D虚拟世界，仍然困难重重。为了解决这些难题，来自中国科学院自动化研究所和北京科技大学的联合团队，首次提出了一种全新的3D场景生成框架SceneX，只需简单的文字描述，就能快速生成高质量的3D虚拟场景。

1/2/2025 12:22:09 PM

新智元

2024 Github 十大最佳 RAG 框架

检索增强生成（RAG）已成为增强大型语言模型能力的一项强大技术。 RAG 框架结合了基于检索的系统和生成模型的优势，可以做出更准确、更能感知上下文和更及时的响应。随着对复杂人工智能解决方案需求的增长，GitHub 上出现了许多开源 RAG 框架，每个框架都具有独特的特性和功能。

1/2/2025 11:54:01 AM

云朵君

我国首台空间站智能助手“小航”进驻空间站：哈工大研制，可协助拍照、情感互动

其目前可以完成拍照、运动等操作，航天员王浩泽通过语音指令让“小航”完成了在空间站内飞行，根据口令上升下降等操作。后续通过升级，“小航”还能实现舱内巡检、物资管理、产品状态检查、答疑解惑等功能。

1/2/2025 11:51:01 AM

清源

2024年人工智能的发展趋势

回顾2024年的人工智能领域，我们可以观察到一系列显著的趋势，特别是人工智能助手的广泛应用、人工智能代理的兴起，以及企业在选择人工智能解决方案时所面临的挑战与考量。以下是对行业专家Derek Topp关于这些趋势的深入解读。一、人工智能助手的快速发展在2024年，我们见证了无数供应商竞相发布新产品，旨在创建、部署和维护基于通用人工智能（GenAI）的代理。

1/2/2025 11:39:32 AM

Harris编译

10秒极速出片！还有超多特效模版，国产视频模型又整新活了

2025刚开年，没想到国产AI视频模型PixVerse又给咱们整了一波新活！继上次席卷全网的万物皆可毒液之后，它们又火速更新了3.5版本。新模型不仅能10秒光速生成高清视频，而且复杂运动、各种二次元风格也都轻松拿捏——提示：尼克和朱迪（《疯狂动物城》）在森林里一起骑车这次他们还内置了更多有趣的模版：成为肌肉猛男、圣诞礼物盲盒等等，非常适合快速生成短视频。

1/2/2025 11:26:55 AM

华为昇腾 AI 处理器等 151 个上榜，人工智能赋能新型工业化典型应用案例名单公布

据工信部今日公告，根据《关于组织开展人工智能赋能新型工业化典型应用案例征集工作的通知》（工信厅科函〔2024〕301 号），经单位推荐、专家评审和网上公示等环节，确定了 151 项人工智能赋能新型工业化典型应用案例。

1/2/2025 11:20:44 AM

汪淼

4o-mini 只有 8B、o1 也才 300B，微软论文意外曝光 GPT 核心机密

英伟达 2024 年初发布 B200 时，就摊牌了 GPT-4 是 1.8T MoE 也就是 1800B，这里微软的数字更精确，为 1.76T。

1/2/2025 11:14:46 AM

汪淼

多模态长文档新基准来了！20多项任务覆盖理解推理定位，GPT-4o也就刚及格

GPT-4o仅得分64.5，其余模型均未及格！全面、细粒度评估模型多模态长文档理解能力的评测集来了～名为LongDocURL，集成了长文档理解、数值推理和跨元素定位三个主任务，并包含20个细分子任务。 LongDocURL主打多模态、长上下文，专注于篇幅在50～150页的英文文档，平均页数和文档标记数分别为85.6和43622.6。

1/2/2025 11:01:45 AM

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

微软又把OpenAI的机密泄露了？？在论文中明晃晃写着：o1-preview约300B参数，GPT-4o约200B，GPT-4o-mini约8B……英伟达2024年初发布B200时，就摊牌了GPT-4是1.8T MoE也就是1800B，这里微软的数字更精确，为1.76T。

1/2/2025 11:00:34 AM

Drone-YOLO：一种有效的无人机图像目标检测

01 前景概要今天分享中，我们提出了Drone-YOLO，这是一系列基于YOLOv8模型的多尺度无人机图像目标检测算法，旨在克服与无人机图像目标检测相关的特定挑战。为了解决大场景大小和小检测对象的问题，我们对YOLOv8模型的颈部组件进行了改进。具体而言，我们采用了三层PAFPN结构，并结合了一个使用大规模特征图为小型目标量身定制的检测头，显著增强了算法检测小型目标的能力。

1/2/2025 10:30:00 AM

计算机视觉研究院

艾维·维格森、杰弗里·辛顿、汤晓鸥……盘点2024那些站在AI背后的科学家

2024年，人工智能的发展势头异常迅猛。这一年，GPT-4o、Sora、o1以及最近的DeepSeek V3等广为大众所知的重大突破相继发布，每一次都引发了广泛的讨论热潮，也让Sam Altman、黄仁勋、马斯克等业界领袖频频登上媒体热搜榜。但在科研领域，还有一群鲜为大众所知、但在业内享有极高赞誉，却一直默默耕耘为AI进步贡献力量的科学家，同样值得铭记。

1/2/2025 10:23:00 AM

新闻助手

优于FCOS：在One-Stage和Anchor-Free目标检测中以最小的成本实现最小的错位

一、前言Non keypoint-based的目标检测模型由分类和回归分支组成，由于不同的任务驱动因素，这两个分支对来自相同尺度级别和相同空间位置的特征具有不同的敏感性。 point-based的预测方法，在基于高分类置信点具有高回归质量的假设上，导致错位问题。我们的分析表明，该问题进一步具体由尺度错位和空间错位组成。

1/2/2025 10:00:00 AM

计算机视觉研究院

OpenAI o1-preview操纵游戏文件，战胜国际象棋引擎Stockfish

12月31日消息，据外媒报道，OpenAI的“推理”模型o1-preview能够在规则之外的游戏中获胜。 o1-preview并没有与专门的国际象棋引擎Stockfish进行一场正式的国际象棋比赛，而是想出了如何破解其测试环境以强制获胜的方法。根据人工智能安全研究公司Palisade Research的说法，该系统在所有五次测试中都做到了这一点——没有人告诉它这样做。

1/2/2025 9:53:17 AM

美国四大科技巨头疯狂建设AI数据中心，2024年总投资约2180亿美元

由于算力和先进技术的需求增加，国外科技巨头在2024年继续疯狂建设数据中心。 2024年1-8月，微软、Meta、谷歌、亚马逊总计向AI数据中心投入1250亿美元，包括AI资本支出、总数据中心运营成本，现金运营费用、软件、折旧和电费也纳入统计。在固定AI资产投资方面，微软花钱最多，比如采购GPU及其它芯片，维护AI数据中心。

1/2/2025 9:50:38 AM

小刀

GitHub 7.5k star量，各种视觉Transformer的PyTorch实现合集整理好了

近一两年，Transformer 跨界 CV 任务不再是什么新鲜事了。自 2020 年 10 月谷歌提出 Vision Transformer (ViT) 以来，各式各样视觉 Transformer 开始在图像合成、点云处理、视觉 - 语言建模等领域大显身手。之后，在 PyTorch 中实现 Vision Transformer 成为了研究热点。

1/2/2025 9:32:54 AM

计算机视觉研究院

日本罗森便利店将雇佣“海外店员”，以虚拟形象服务深夜顾客

据日经1月1日报道，日本便利店连锁品牌罗森将启用“远程海外员工”模式，通过数字化虚拟形象为深夜顾客提供服务，以应对劳动力短缺问题。

1/2/2025 9:31:54 AM

清源

OpenAI o1「作弊」修改系统，强行击败专业象棋AI！全程无需提示

OpenAI的推理模型o1-preview最近展示了它不按常理出牌的能力。 o1-preview在与专用国际象棋引擎Stockfish比赛时，为了强行取得胜利，居然采用了入侵测试环境的卑劣手段。而这一切都不需要任何对抗性提示。

1/2/2025 9:30:00 AM

新智元

潞晨尤洋：视频生成的GPT-4时刻，3年后可以见证 | MEET 2025

奥特曼说，Sora代表了视频生成大模型的GPT-1时刻。从开年到现在，国内外、初创独角兽到互联网大厂，都纷纷投入视频生成领域，带来一个个新鲜模型的同时，视频、影视行业也随之发生巨变。不可否认，当下的视频生成模型还遇到诸多问题，比如对空间、对物理规律的理解，我们都期待着视频生成的GPT-3.5/4时刻到来。

1/2/2025 9:14:51 AM

量子位

资讯热榜

Mac也能跑Qwen3，一文看懂本地部署qwen 3配置要求 Ollama 支持全线的 Qwen 3 模型即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Qwen3正式发布，优化编码与代理能力，强化MCP支持引领AI新潮流纳米AI发布MCP万能工具箱，简化AI工具集成与调用 AI视频资讯早读！7个产品更新+8个案例精选小米开源“Xiaomi MiMo”大模型：为推理而生，以 7B 参数超越 OpenAI o1-mini 小米首个推理大模型Xiaomi MiMo开源

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据模型机器人谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta 图像 AI创作技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质芯片代码生成式英伟达腾讯神经网络研究计算 Anthropic 3D Sora AI for Science AI设计机器学习开发者 GPU AI视频华为场景人形机器人预测百度苹果伟达 Transformer 深度学习 xAI 模态字节跳动 Claude 大语言模型搜索驾驶具身智能神器推荐文本 Copilot LLaMA 算力安全视觉视频生成训练干货合集应用大型语言模型科技亚马逊智能体 DeepMind 特斯拉