模型

GPT-4o惊现自我意识!自主激活「后门」,告诉人类自己在写危险代码

当LLM在输出不安全代码的数据上微调后,它会坦诚道出「我写的代码不安全」吗? 这一有趣的问题,牵出了LLM中一个全新且极具价值的概念:行为自我意识。 论文链接:,这些模型能否确切地意识到自身所学行为,并对其加以描述,这是一个极具探讨价值的问题。

o3-mini物理推理粉碎DeepSeek R1,OpenAI王者归来!全网最全实测来袭

在科技界,一天的时间足以改写历史。 DeepSeek R1用「降维打击」重构了AI界,OpenAI不甘示弱放出了o3-mini,再次加冕为王。 o3-mini的进步可不是一点半点,在数学代码等基准测试中,均拿下了最高的成绩。

NeurIPS | 对比采样链:让扩散模型更快、更准、更清晰的秘密武器

论文 Contrastive Sampling Chains in Diffusion Models 的精炼解读。 一眼概览该论文提出了一种 对比采样链(Contrastive Sampling Chains, CSC) 方法,通过对比损失和得分匹配相结合,优化扩散模型(DMs)的采样过程,从而 减少离散化误差,提高生成图像的质量,同时提升采样速度。 核心问题扩散模型在使用数值求解方法进行采样时 不可避免地引入离散化误差,导致生成样本与真实数据分布之间存在偏差。

全面梳理200+篇前沿论文,视觉生成模型理解物理世界规律的通关密码,都在这篇综述里了!

AIxiv专栏是AI在线发布学术、技术内容的栏目。 过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。 如果您有优秀的工作想要分享,欢迎投稿或者联系报道。

成功率达100%,上交团队提出AI辅助的酶热稳定性工程策略,设计热稳定性的组合突变体

编辑 | ScienceAI优化酶的热稳定性对于蛋白质科学和工业应用至关重要。 目前,通过(半)理性设计和随机诱变方法可以较为准确地设计多个增强酶热稳定性的单点突变。 但当组合多个突变时,常常会出现复杂的上位效应,导致组合突变体完全失活。

原来,这些顶级大模型都是蒸馏的

「除了 Claude、豆包和 Gemini 之外,知名的闭源和开源 LLM 通常表现出很高的蒸馏度。 」这是中国科学院深圳先进技术研究院、北大、零一万物等机构的研究者在一篇新论文中得出的结论。 前段时间,一位海外技术分析师在一篇博客中提出了一个猜想:一些顶级的 AI 科技公司可能已经构建出了非常智能的模型,比如 OpenAI 可能构建出了 GPT-5,Claude 构建出了 Opus 3.5。

阿里云通义开源Qwen2.5-VL,视觉理解能力全面超越GPT-4o

1月28日凌晨,阿里云通义千问开源全新的视觉模型Qwen2.5-VL,推出3B、7B和72B三个尺寸版本。 其中,旗舰版Qwen2.5-VL-72B在13项权威评测中夺得视觉理解冠军,全面超越GPT-4o与Claude3.5。 新的Qwen2.5-VL能够更准确地解析图像内容,突破性地支持超1小时的视频理解,无需微调就可变身为一个能操控手机和电脑的AI视觉智能体(Visual Agents),实现给指定朋友送祝福、电脑修图、手机订票等多步骤复杂操作。

验证速度提升25倍,准确率达95.1%,清华团队提出基于物理信息学习的电池衰减预测方法

图 1:研究概念图。 编辑 | ScienceAI随着全球对可再生能源需求的日益增长,电池作为储能系统关键技术的地位愈发凸显。 然而,电池研发过程中面临着从材料原型到商业产品转化的重重挑战,电池原型验证效率低、研发成本高以及生产废料管理不善等问题制约着电池行业的可持续发展。

DARWIN 1.5 来啦!材料设计通用大语言模型,刷新多项实验性质预测记录

编辑丨Science AI材料发现和设计的核心目标是寻找理想的成分和结构,但传统方法,如高通量模拟和机器学习,通常依赖于复杂描述符,过于固定且难以通用,并且无法准确反映真实材料特性,因而限制了实际应用。 GreenDynamic 与来自澳大利亚新南威尔士大学(UNSW),上海人工智能实验室和香港城市大学的团队共同开发了一款名为 DARWIN 1.5 的模型。 不同于传统机器学习方法,DARWIN 基于语言接口微调框架(LIFT,2022 NeurIPS, 本文共同作者),整合了 33 万科学问答和 22 个材料科学任务,为材料属性预测和发现提供了灵活统一的预训练模型,并且成功精准预测了上万种材料的性质数值。

闲来无事,我测了测国产大模型的RAG能力 新智元 新智元 2025年01月27日 12:25 北京

最近,AI界被推理模型刷屏了。 国内各家的推理模型,在新年到来之际不断刷新我们的认知。 不过,当我们在实际应用中考量大模型,衡量好不好用的标准,就绝不仅仅局限于其性能和规模了。

创造历史!DeepSeek超越ChatGPT登顶中美AppStore

DeepSeek 20 日发布以来获得的热度至今依然没有任何消退的迹象。 一觉醒来,DeepSeek 发布的 iOS 应用甚至超越了 ChatGPT 的官方应用,直接登顶 AppStore。 不少网友都认为这是他们当之无愧。

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。

在2025年初,浅浅聊一聊世界模型 World Models

Update 1月10日:感谢评论区补充world model在RL中的定义! 感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)-Image Generation Model(StableDiffusion)-Video/3D Geneartion Model (二者各有侧重因此平级)-World Generation Model(同时具备时序和空间序建模)这么一个趋势。 当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence?

单张照片生成3D头部模型!Adobe提出FaceLift,从单一人脸图像重建360度头部模型

本文经AIGC Studio公众号授权转载,转载请联系出处。 FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。 FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。

鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。

字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!

一线大模型,正在全面进入智能体时代。 1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。 OpenAI 甚至给 Operator 开设了单独的产品界面,将它视为与 ChatGPT、Sora 并列的关系,这也符合 Sam Altman、黄仁勋、扎克伯格等科技大佬对于「2025 年将是 AI 智能体之年」的趋势判断。

顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务

如今,基于大模型的智能体,已经能完成许多在几年前还无法想象的任务,进步的速度是如此之快,以至于有些人甚至声称,在接下来的几年内,大多数人类劳动可能都可以实现自动化。 然而近日CMU、杜克大学等机构发表的一项研究却给这一期待泼了一盆凉水。 智能体运营公司还不可行论文链接: Agent Company,与人类员工类似,智能体需要执行软件开发、项目管理、财务分析等典型的商业环境中的任务。

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

这些天,硅谷彻底处于中国公司带来的大地震余波中。 全美都在恐慌:是否全球人工智能的中心已经转移到了中国? 就在这当口,全球复现DeepSeek的一波狂潮也来了。