AI资讯列表 - AI在线

续命Scaling Law？世界模型GPT-4o让智能体超级规划，OSU华人一作

Scaling Law又能续命了？如何通过语言智能体的高级规划来Scaling推理时计算？答案就是——使用LLM作为世界模型。

王炸！谁能想到年底杀出的黑马是美图啊

今年的AI界依旧让人眼花缭乱，但迈入“应用年”后，大家更加关注落地。就像年初OpenAI发布的Sora至今未向公众开放，被戏称“期货”，再酷炫的技术，用不上也没用。和大把热衷炫技的公司不同，小而美的美图属于“闷声干大事”。

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域，基于预训练视觉编码器与MLLM的方法（如LLaVA系列）在视觉理解任务上展现出卓越性能。而基于Rectified Flow的模型（如Stable Diffusion 3及其衍生版本）则在视觉生成方面取得重大突破。能否将这两种简单的技术范式统一到单一模型中？

如今的智能体，已经像人一样「浏览」视频了，国内就有

当你正在观看一部紧张刺激的动作电影，忽然好奇：“那个角色到底是在哪一集说的那句话？ ”“这里的背景音乐是什么？ ”又或者在一场足球比赛中，你错过了那个决定性的进球，却又想再次回放。

仅仅一天，Gemini就夺回了GPT-4o拿走的头名

太卷了，大模型迭代开始以「周」为单位了吗？一周前，谷歌的 Gemini-Exp-1114 模型取代 GPT-4o，坐上了 Arena 榜单的头把交椅。对于苦苦追赶 OpenAI 几个月的谷歌来说，这次在基准测试上的胜利十分振奋人心。

上交大o1复现新突破：蒸馏超越原版，警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

大模型不会照搬训练数据中的数学推理，回答事实问题和推理问题的「思路」也不一样。大语言模型的「推理」能力应该不是推理，在今年 6 月，一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论，改变了我们对于 AI 智力的看法。该论文认为人类语言主要是用于交流的工具，而不是思考的工具，对于任何经过测试的思维形式都不是必需的。

800 余岁巴黎圣母院“浴火重生”：12 月 7 日重新开放，AI 数字建模创奇迹

时隔 5 年，巴黎圣母院终于完成修复，将在 12 月 7 日重新开放。在这场耗资数亿欧元的浩大工程中，3D 建模等关键 AI 技术发挥了关键作用，让历经 800 多年沧桑的教堂与现代科技完美融合。

首个可保留情感的音频 LLM：Meta 重磅开源 7B-Spirit LM，一网打尽“音频 + 文本”多模态任务

Meta 开源了一个基础多模态语言模型 Spirit LM，基于一个 70 亿参数的预训练文本语言模型，交错使用文本和语音数据进行训练，使模型能够自由地混合文本和语音，在任一模态中生成语言内容。

全球十亿级轨迹点驱动，首个轨迹基础大模型来了

在智慧城市和大数据时代背景下，人类轨迹数据的分析对于交通优化、城市管理、物流配送等关键领域具有重要意义。然而，现有的轨迹相关模型往往受限于特定任务、区域依赖、轨迹数据规模和多样性困乏等问题，限制了模型的泛化能力和实际应用范围。近日，来自于香港科技大学（广州）、南方科技大学、香港城市大学的联合研究团队整理了首个全球大规模轨迹数据集 WorldTrace，并基于该数据集训练了首个世界轨迹基础大模型 UniTraj，为交通领域内构建通用时空智能提供了一种全新的思路。

谷歌 Gemini 突发试验版模型：重回竞技榜第一，新版 GPT-4o 只领先了 1 天

在新版 GPT-4o 刚登顶竞技榜后 1 天，立马发布最新试验版模型 Gemini-Exp-1121 夺回冠军宝座。要知道，一周前上一版模型 Gemini-Exp-1114 才发布。这怕不是拿准了 OpenAI 会来争擂台，故意留了一手。

谷歌Gemini突发试验版模型，重回竞技榜第一！新版GPT-4o只领先了1天

谷歌和OpenAI又杠上了。在新版GPT-4o刚登顶竞技榜后1天，立马发布最新试验版模型Gemini-Exp-1121夺回冠军宝座。图片要知道，一周前上一版模型Gemini-Exp-1114才发布。

视觉模型智能涌现后， Scaling Law 不会到头

Scaling Law 或将终结——这是最近备受热议的话题之一。该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文，其研究表明当下的语言模型在大量数据上经历了过度训练，继续叠加更多的预训练数据可能会产生副作用。这释放的信号是：在自然语言处理领域， Scaling Law 目光所及地到达瓶颈，单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效，低精度的训练和推理正在使模型性能提升的边际效益递减。

写给小白的大模型入门科普

什么是大模型？大模型，英文名叫Large Model，大型模型。早期的时候，也叫Foundation Model，基础模型。

超越 GPT-4o 和 Gemini-1.5，阶跃星辰拿下中国大模型第一

在大模型技术圈里，有一个获得不少认同的说法：阶跃星辰的底层基础模型能力很强，甚至是几家大模型公司中数一数二的。但其实，拥有这种看法的大多是足够了解国内大模型能力现状的人，对于圈子之外的人，无法直观感受到这种潜移默化的底层硬实力。然而，在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中，阶跃星辰给了行业一次强有力的冲击。

多模态语言模型实战之音乐转录

译者 | 朱先忠审校 | 重楼本文将以实战方式探讨基于Spotify公司的开源音乐大模型Llark并联合阿里巴巴的语音多模态大模型Qwen2-AudioQwen2-Audio将音乐转录成乐谱的完整过程。自动音乐转录是将MP3和WAV等音频文件转换为乐谱、吉他指法谱以及音乐家可能想要用乐器学习歌曲的任何格式的过程。本文中，我们将介绍目前用于执行上述操作的最佳工具，这些工具恰好是基于深度学习的，并采用了一种新颖的方法。

输入即搜索，搜狗输入法 12.0 基于腾讯混元大模型升级

主要内容包括AI 搜索、AI 搜索 PC 端、AI 快查、AI 陪伴、魔术手势以及全新视觉。新版本输入框即搜索框，依托腾讯混元大模型，点击放大镜“秒出答案”。

图灵奖得主 Yoshua Bengio：人类仍缺乏可靠的方法来管理和约束 AI

他也认为，AI“内部推理能力”的成功带来了新的风险——目前人类仍然缺乏可靠的方法来管理和约束AI。

资讯列表