资讯列表

续命Scaling Law?世界模型GPT-4o让智能体超级规划,OSU华人一作

Scaling Law又能续命了? 如何通过语言智能体的高级规划来Scaling推理时计算? 答案就是——使用LLM作为世界模型。

王炸!谁能想到年底杀出的黑马是美图啊

今年的AI界依旧让人眼花缭乱,但迈入“应用年”后,大家更加关注落地。 就像年初OpenAI发布的Sora至今未向公众开放,被戏称“期货”,再酷炫的技术,用不上也没用。  和大把热衷炫技的公司不同,小而美的美图属于“闷声干大事”。

DeepSeek等团队新作JanusFlow: 1.3B大模型统一视觉理解和生成

在多模态AI领域,基于预训练视觉编码器与MLLM的方法(如LLaVA系列)在视觉理解任务上展现出卓越性能。 而基于Rectified Flow的模型(如Stable Diffusion 3及其衍生版本)则在视觉生成方面取得重大突破。 能否将这两种简单的技术范式统一到单一模型中?

如今的智能体,已经像人一样「浏览」视频了,国内就有

当你正在观看一部紧张刺激的动作电影,忽然好奇:“那个角色到底是在哪一集说的那句话? ”“这里的背景音乐是什么? ”又或者在一场足球比赛中,你错过了那个决定性的进球,却又想再次回放。

仅仅一天,Gemini就夺回了GPT-4o拿走的头名

太卷了,大模型迭代开始以「周」为单位了吗? 一周前,谷歌的 Gemini-Exp-1114 模型取代 GPT-4o,坐上了 Arena 榜单的头把交椅。 对于苦苦追赶 OpenAI 几个月的谷歌来说,这次在基准测试上的胜利十分振奋人心。

上交大o1复现新突破:蒸馏超越原版,警示AI研发"捷径陷阱"

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

大模型不会推理,为什么也能有思路?有人把原理搞明白了

大模型不会照搬训练数据中的数学推理,回答事实问题和推理问题的「思路」也不一样。 大语言模型的「推理」能力应该不是推理,在今年 6 月,一篇 Nature 论文《Language is primarily a tool for communication rather than thought》曾引发 AI 社区的大讨论,改变了我们对于 AI 智力的看法。 该论文认为人类语言主要是用于交流的工具,而不是思考的工具,对于任何经过测试的思维形式都不是必需的。

800 余岁巴黎圣母院“浴火重生”:12 月 7 日重新开放,AI 数字建模创奇迹

时隔 5 年,巴黎圣母院终于完成修复,将在 12 月 7 日重新开放。在这场耗资数亿欧元的浩大工程中,3D 建模等关键 AI 技术发挥了关键作用,让历经 800 多年沧桑的教堂与现代科技完美融合。

首个可保留情感的音频 LLM:Meta 重磅开源 7B-Spirit LM,一网打尽“音频 + 文本”多模态任务

Meta 开源了一个基础多模态语言模型 Spirit LM,基于一个 70 亿参数的预训练文本语言模型,交错使用文本和语音数据进行训练,使模型能够自由地混合文本和语音,在任一模态中生成语言内容。

全球十亿级轨迹点驱动,首个轨迹基础大模型来了

在智慧城市和大数据时代背景下,人类轨迹数据的分析对于交通优化、城市管理、物流配送等关键领域具有重要意义。 然而,现有的轨迹相关模型往往受限于特定任务、区域依赖、轨迹数据规模和多样性困乏等问题,限制了模型的泛化能力和实际应用范围。 近日,来自于香港科技大学(广州)、南方科技大学、香港城市大学的联合研究团队整理了首个全球大规模轨迹数据集 WorldTrace,并基于该数据集训练了首个世界轨迹基础大模型 UniTraj,为交通领域内构建通用时空智能提供了一种全新的思路。

谷歌 Gemini 突发试验版模型:重回竞技榜第一,新版 GPT-4o 只领先了 1 天

在新版 GPT-4o 刚登顶竞技榜后 1 天,立马发布最新试验版模型 Gemini-Exp-1121 夺回冠军宝座。要知道,一周前上一版模型 Gemini-Exp-1114 才发布。这怕不是拿准了 OpenAI 会来争擂台,故意留了一手。

谷歌Gemini突发试验版模型,重回竞技榜第一!新版GPT-4o只领先了1天

谷歌和OpenAI又杠上了。 在新版GPT-4o刚登顶竞技榜后1天,立马发布最新试验版模型Gemini-Exp-1121夺回冠军宝座。 图片要知道,一周前上一版模型Gemini-Exp-1114才发布。

视觉模型智能涌现后, Scaling Law 不会到头

Scaling Law 或将终结——这是最近备受热议的话题之一。 该讨论最初源自于哈佛大学一篇名为《Scaling Laws for Precision》的论文,其研究表明当下的语言模型在大量数据上经历了过度训练,继续叠加更多的预训练数据可能会产生副作用。 这释放的信号是:在自然语言处理领域, Scaling Law 目光所及地到达瓶颈,单纯依靠增加模型规模和数据量来提升性能的方法也许不再有效,低精度的训练和推理正在使模型性能提升的边际效益递减。

写给小白的大模型入门科普

什么是大模型? 大模型,英文名叫Large Model,大型模型。 早期的时候,也叫Foundation Model,基础模型。

超越 GPT-4o 和 Gemini-1.5,阶跃星辰拿下中国大模型第一

在大模型技术圈里,有一个获得不少认同的说法:阶跃星辰的底层基础模型能力很强,甚至是几家大模型公司中数一数二的。 但其实,拥有这种看法的大多是足够了解国内大模型能力现状的人,对于圈子之外的人,无法直观感受到这种潜移默化的底层硬实力。 然而,在被誉为「世界上第一个不可玩弄的 LLM 基准测试」的 LiveBench 榜单中,阶跃星辰给了行业一次强有力的冲击。

多模态语言模型实战之音乐转录

译者 | 朱先忠审校 | 重楼本文将以实战方式探讨基于Spotify公司的开源音乐大模型Llark并联合阿里巴巴的语音多模态大模型Qwen2-AudioQwen2-Audio将音乐转录成乐谱的完整过程。 自动音乐转录是将MP3和WAV等音频文件转换为乐谱、吉他指法谱以及音乐家可能想要用乐器学习歌曲的任何格式的过程。 本文中,我们将介绍目前用于执行上述操作的最佳工具,这些工具恰好是基于深度学习的,并采用了一种新颖的方法。

输入即搜索,搜狗输入法 12.0 基于腾讯混元大模型升级

主要内容包括AI 搜索、AI 搜索 PC 端、AI 快查、AI 陪伴、魔术手势以及全新视觉。新版本输入框即搜索框,依托腾讯混元大模型,点击放大镜“秒出答案”。

图灵奖得主 Yoshua Bengio:人类仍缺乏可靠的方法来管理和约束 AI

他也认为,AI“内部推理能力”的成功带来了新的风险——目前人类仍然缺乏可靠的方法来管理和约束AI。