AI在线 AI在线

模型

奥赛级AI基准来了:难倒所有模型,GPT-4o仅考34分,上海交大出品

为了进一步挑战AI系统,大家已经开始研究一些最困难的竞赛中的问题,特别是国际奥林匹克竞赛和算法挑战。 但目前尚无奥林匹克级别的、多学科的基准,能够全面评估综合解决问题的能力,以全面检验人工智能的综合认知能力。 上海交通大学生成式人工智能实验室 (GAIR Lab) 的研究团队推出多学科认知推理基准OlympicArena,即使是GPT-4o 也只达到了 34.01% 的整体准确率,而其他开源模型的整体准确率也难以达到20%。
4/1/2025 9:25:00 AM
量子位

OpenAI惊人内幕曝光!赶走奥特曼的PDF,是Ilya发的

奥特曼宫斗事件的背后推手,果然是Ilya! 他发出的两份PDF,掀起了此后OpenAI的惊天巨浪。 奥特曼的3个谎言被戳穿后,Ilya找到Murati和董事会成员,策划了一场「政变」。
4/1/2025 9:23:00 AM
新智元

推荐场景Scaling Law来了!中科大&华为诺亚方舟联合推出

当Scaling Law应用于推荐场景,模型又将如何表现? 中科大认知智能全国重点实验室陈恩红团队联合华为诺亚方舟实验室推出推荐模型性能定律,首次对模型的性能与模型、数据的规模和质量进行了定量分析。 针对现有工作只能对推荐大模型Scaling Law(扩展定律)做定性分析的局限性,论文首次尝试对推荐大模型性能扩展定律给出明确的定量预测。
4/1/2025 9:20:00 AM
量子位

刚刚,谷歌最强Gemini 2.5 Pro免费了!数学碾压人类研究生,拿下全球TOP 1

虽然又被GPT-4o吉卜力生图的光芒掩盖了,但毫无疑问,上周的另一技术核弹Gemini 2.5 Pro,也是无可争议的强! 在试用过程中,网友们逐渐发现,这个模型真的强到发指。 在门萨Norway的IQ测试中,它已经突破了130。
4/1/2025 9:17:00 AM
新智元

OpenAI重新开源!第一弹就推理模型,还不限制商用,“冲着DeepSeek来的”

一夜之间,OpenAI更新三大动向,开源、融资、用户暴增。 第一,将开源一个具备推理能力的大语言模型,包含参数权重那种。 上一次这样开源还是6年前推出GPT-2。
4/1/2025 8:45:15 AM

对抗灾害,理解极端气候的智能模型概述

编辑丨toileter近年来,人工智能(AI)通过改进天气预报、模型仿真、参数估计和极端事件预测,深刻影响了包括地球系统科学在内的各个领域。 通过嵌合 AI,灾难响应与沟通效率得到极大提高。 由西班牙瓦伦西亚大学( Universitat de València)引导的团队强调不同领域合作的必要性,以创建实用、可理解和值得信赖的 AI 解决方案,以增强灾难准备和降低风险。
3/31/2025 2:04:00 PM
ScienceAI

Gemini 2.5疯狂反扑OpenAI,智商130碾压人类!一键3D打印蛋糕、秒解魔方

要说这几天AI圈最火的模型,那肯定非GPT-4o莫属。 为了应对DeepSeek V3的一次「小升级」以及谷歌Gemini 2.5 Pro的推出,奥特曼带队上线了GPT-4o的原生图像生成功能。 随之而来的是一股吉卜力风席卷全网,火速出圈儿。
3/31/2025 10:08:00 AM
新智元

AI「癌症神探」降临:准确度近100%,医生也自叹不如!

逆天! 新型AI识别癌症,近100%精准度碾压医生。 AI在医学领域越来越厉害啦!
3/31/2025 10:00:00 AM
新智元

13.8倍吞吐提升!浙大上海AI Lab等提出视觉生成新范式,从“下一个token”到“下一个邻域”

在图像/视频生成任务中,传统的“下一个token预测”方法正面临严重的效率瓶颈。 来自浙大、上海AI Lab等机构的研究人员提出了一种全新的视觉生成范式——邻近自回归建模(Neighboring Autoregressive Modeling, NAR)。 与传统的“下一个token预测”不同,NAR模型采用了“下一个邻域预测”的机制,将视觉生成过程视为一种逐步扩展的“外绘”过程。
3/31/2025 9:32:00 AM
量子位

从0编写基因组!史上最大生物学模型Evo-2全面开源:硅基生命能创造细胞?

生命的一切表现,基本都可以从DNA编码中找到答案。 基因组(Genome)包含了生物体所有基因以及非编码的DNA序列,承载了生物体发育、生长、繁殖和适应环境所需的全部遗传信息,近年来基因组相关的测序、合成和编辑工具已经彻底改变了生物学研究。 然而,基因组的复杂性是巨大的,即使是最简单的微生物,也包含数百万个DNA碱基对,要智能地构建新的生物系统,研究人员还需要深入理解基因组编码的复杂信息。
3/31/2025 9:30:00 AM
新智元

业界突破多模态泛化推理能力,OPPO研究院&港科广提出OThink-MR1技术

用上动态强化学习,多模态大模型也能实现泛化推理了? 来自OPPO研究院和港科广的科研人员提出了一项新技术——OThink-MR1,将强化学习扩展到多模态语言模型,帮助其更好地应对各种复杂任务和新场景。 研究人员表示,这一技术使业界突破多模态泛化推理能力。
3/31/2025 9:22:00 AM
量子位

高中生用「我的世界」评测SOTA模型!Claude暂时领先,DeepSeek紧随其后

「strawberry中有多少个r」和「在LSAT法学考试中获得88分」哪个更难? 对于现如今的LMMs来说,通过各种人类「听着就头痛,看又看不懂」的基准测试似乎已是家常便饭。 比如DeepSeek-R1发布时在6大基准测试(包含AIME、MMLU、MATH-500等)中超过o1取得领先。
3/31/2025 9:20:00 AM
新智元

自动驾驶首次应用测试时计算!港大英伟达等新技术让AI边开边学,无人车遇变道自如应对

当开车遇到变道、加塞等场景时,驾驶员往往会下意识地激活自己的“安全驾驶思维”,从而做出激进的规避行为。 与之类似,自动驾驶汽车在上述场景中,更会表现得像个谨小慎微的”新手司机”,这是因为模型的决策往往依赖于工程师预设的固定规则,进而导致“不求无功,但求无过”的驾驶风格,但过多的无故急刹、过度避让反而会引发额外的安全隐患。 针对上述问题,来自香港大学、英伟达和德国图宾根大学的联合团队提出Centaur(Cluster Entropy for Test-time trAining using UnceRtainty)方法,能够动态地改善驾驶策略,通过在线的数据驱动,摆脱了对预设规则的依赖,大幅提高了自动驾驶汽车在不确定性场景中的适应性与安全性。
3/31/2025 9:17:00 AM
量子位

AI跨本体组队!智源发布首个跨本体具身大小脑协作框架+开源具身大脑

3月29日,智源研究院在2025中关村论坛「未来人工智能先锋论坛」上发布首个跨本体具身大小脑协作框架RoboOS与开源具身大脑RoboBrain,可实现跨场景多任务轻量化快速部署与跨本体协作,推动单机智能迈向群体智能,为构建具身智能开源统一生态加速场景应用提供底层技术支持。 开源链接:具身多模态大脑模型RoboBrainGithub::::::,打造感知-认知-决策-行动闭环在具身场景中,长程操作任务是机器人执行复杂任务的核心能力之一。 具身大脑RoboBrain融合了机器人任务规划、可操作区域感知、轨迹预测的三维能力,通过将抽象指令映射为具象动作序列,增强长程操作任务的能力。
3/31/2025 9:10:00 AM
新智元

网上晒图要当心!AI六成可能知道你在哪儿

AI轻松击败人类! 这次是看图猜地名:给AI一张全新的照片,它能猜出照片在哪儿拍摄的,而且准确率还相当高。 也就是说,从图像中,AI能识别地理信息方面。
3/31/2025 9:00:00 AM
新智元

“计算机视觉被GPT-4o终结了”(狗头)

一夜之间,CV被大模型“解决”了(狗头)。 万物皆可吉卜力之后,GPT-4o原生多模态图像生成更多玩法被开发出来。 一个男友回头表情包,可以秒变语义分割图。
3/31/2025 8:44:00 AM
量子位

Anthropic首次切开Claude大脑,「AI黑箱」彻底破解?心算诡异思考过程曝光

AI的性能愈发强大,一个新模型可能前一天还是SOTA(最佳模型),第二天就被拍了下去。 不过,这些强大的AI上空总有一团迷雾笼罩。 那就是:他们到底是怎么找到答案的?
3/31/2025 8:30:00 AM
新智元

单张照片生成360°3D场景,支持灵活视角漫游|人大&北师大&字节

从单张图像生成灵活视角3D场景的技术来了,在考古保护、自主导航等直接获取3D数据成本高昂或不可行的领域具有重要应用价值。 这一任务本质上是高度不适定的:单一的2D图像无法提供足够的信息来消除完整3D结构的歧义,尤其是在极端视角(如180°旋转)下,先前被遮挡或缺失的内容可能会引入显著的不确定性。 生成模型,特别是扩散模型,为解决这一问题提供了一种潜在的技术路径。
3/31/2025 8:27:00 AM
量子位