AI资讯列表 - AI在线

亚马逊大手笔，宣布向 AI 初创公司 Anthropic 追加 40 亿美元投资

Anthropic公司由前 OpenAI 研究团队的高管创立，其开发了聊天机器人产品，新投资使亚马逊对其的总投资额增至 80 亿美元（当前约 579.81 亿元人民币）。

OpenAI 首席产品官：ChatGPT 网页端本周引入高级语音模式

北京时间本周三凌晨，OpenAI 首席产品官凯文·威尔（ Kevin Weil ）通过 X 平台确认，高级语音模式（Advanced Voice Mode）在本周全面上线ChatGPT网页版，面向付费用户开启。

IDEA研究院发布DINO-X目标检测视觉大模型

计算机视觉技术在真实世界的应用场景十分广泛。然而，过去主流的小模型方案，难以应对碎片化、多变的长尾需求，限制了技术落地规模。源自自然语言研究的Transformer架构诞生后，视觉模型与之结合，走上一条“从小变大，从N变1”之路。

腾讯混元大模型核心论文曝光：Scaling law、MoE、合成数据以及更多

随着 ChatGPT 的横空出世，大语言模型能力开始在各项领域（传统 NLP、数学、代码等）得到广泛验证，目前已经深刻影响到腾讯混元团队日常生活的方方面面。腾讯混元团队长期致力于大语言模型的探索之路，大模型生产的各个环节开展研究创新以提升其基础能力，并将混元大模型的能力跟业务做深度结合，让生成式 AI 成为业务增长的放大器。大语言模型的设计、训练和优化是一项复杂的系统工程，涉及到模型结构创新、训练范式优化、数据获取和评测设计、关键能力提升和挑战性问题的解决等方方面面。

无需预训练，亲和力与天然蛋白相当，中国科大的蛋白质从头设计方法登Nature子刊

编辑 | 白菜叶在过去的 2-3 年里，去噪扩散概率模型 (DDPM) 在生成高质量文本、图像和视频方面取得了前所未有的成功。这激发了人们对在蛋白质结构的从头设计中使用生成式 DDPM 的热情。然而，大多数此类研究都遇到了相当大的困难，无法获得可以轻松生成可通过高分辨率结构分析验证的无缺陷蛋白质结构的 DDPM。

2秒完成检测，将AI与3D打印相结合，科学家实现小型核反应堆高级监测

编辑 | 白菜叶随着人工智能时代对电力的需求不断增长，全球科技公司正逐渐将小型核反应堆作为可持续能源解决方案。采用先进人工智能的新型远程监控技术能够在短短两秒钟内检测出这些反应堆的潜在危险。这一创新系统能够实时监控内部状况，大大降低管理成本并提高安全性。

陈睿：超九成 AI 厂商选择在B站和用户沟通，AIGC 相关内容观看量突破 300 亿次

2024 年世界互联网大会乌镇峰会互联网企业家论坛于昨日举行，B站董事长兼 CEO 陈睿以“兴趣是最好的老师”为主题发表演讲。

一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。图片对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的

团队介绍：本项目的核心开发团队主要由上海交通大学GAIR研究组，研究团队早在一个多月前发布o1复现进展报告。详细作者介绍见： OpenAI 发布展现出前所未有复杂推理能力的 o1 系列模型以来，全球掀起了一场 AI 能力 “复现” 竞赛。近日，上海交通大学 GAIR 研究团队在 o1 模型复现过程中取得新的突破，通过简单的知识蒸馏方法，团队成功使基础模型在数学推理能力上超越 o1-preview。

首个可保留情感的音频LLM！Meta重磅开源7B-Spirit LM，一网打尽「音频+文本」多模态任务

在纯文本大模型取得进展的同时，其他模态数据，如语音与文本结合的语言模型（SpeechLMs）也成为了一个热门的研究领域，但现有的模型要么在仅包含语音的数据上进行训练，要么是关注特定任务，如文本转语音（TTS）、自动语音识别（ASR）或翻译，在其他模态数据和任务上的泛化能力十分有限。在大型语言模型（LLM）性能不断提升的情况下，一个常用的方法是先用ASR模型将语音转录成文本，然后用文本模型来生成新的文本，最后再用TTS模型将文本转换成语音，这种流程的一个显著缺陷就是语音表达性不佳，语言模型无法建模并生成富有表现力的语音数据。最近，Meta开源了一个基础多模态语言模型Spirit LM，基于一个70亿参数的预训练文本语言模型，交错使用文本和语音数据进行训练，使模型能够自由地混合文本和语音，在任一模态中生成语言内容。

机器人训练数据不缺了！英伟达团队推出DexMG：数据增强200倍

要知道，大规模、优质的机器人训练数据集的获取往往非常有挑战性。不过最近，来自英伟达、UT Austin和UCSD的研究人员推出了一种大规模自动化数据生成系统——DexMimicGen。它可基于少量人类演示合成类人机器人的灵巧手运动轨迹，帮助实现在更少人工干预下扩大类人数据的采集。

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

Scaling Law又能续命了？如何通过语言智能体的高级规划来Scaling推理时计算？答案就是——使用LLM作为世界模型。

王炸！谁能想到年底杀出的黑马是美图啊

今年的AI界依旧让人眼花缭乱，但迈入“应用年”后，大家更加关注落地。就像年初OpenAI发布的Sora至今未向公众开放，被戏称“期货”，再酷炫的技术，用不上也没用。和大把热衷炫技的公司不同，小而美的美图属于“闷声干大事”。

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。而基于Rectified Flow的模型（如Stable Diffusion 3及其衍生版本）则在视觉生成方面取得重大突破。能否将这两种简单的技术范式统一到单一模型中？

如今的智能体，已经像人一样「浏览」视频了，国内就有

当你正在观看一部紧张刺激的动作电影，忽然好奇：“那个角色到底是在哪一集说的那句话？ ”“这里的背景音乐是什么？ ”又或者在一场足球比赛中，你错过了那个决定性的进球，却又想再次回放。

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

太卷了，大模型迭代开始以「周」为单位了吗？一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的胜利十分振奋人心。

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

大模型不会推理，为什么也能有思路？有人把原理搞明白了

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论，改变了我们对于 AI 智力的看法。该论文认为人类语言主要是用于交流的工具，而不是思考的工具，对于任何经过测试的思维形式都不是必需的。

800 余岁巴黎圣母院“浴火重生”：12 月 7 日重新开放，AI 数字建模创奇迹

时隔 5 年，巴黎圣母院终于完成修复，将在 12 月 7 日重新开放。在这场耗资数亿欧元的浩大工程中，3D 建模等关键 AI 技术发挥了关键作用，让历经 800 多年沧桑的教堂与现代科技完美融合。

资讯列表