模型

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。

在2025年初,浅浅聊一聊世界模型 World Models

Update 1月10日:感谢评论区补充world model在RL中的定义! 感觉在RL中的定义,world model是针对一个具体子任务的模型,最近上述公司提到的World Model的尺度似乎更大、更加通用,更多从:Language Generation Model (ChatGPT)-Image Generation Model(StableDiffusion)-Video/3D Geneartion Model (二者各有侧重因此平级)-World Generation Model(同时具备时序和空间序建模)这么一个趋势。 当然这个World似乎想要包容一切,于是也并不清晰到底是什么样的表征:是否是video sequence?

单张照片生成3D头部模型!Adobe提出FaceLift,从单一人脸图像重建360度头部模型

本文经AIGC Studio公众号授权转载,转载请联系出处。 FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。 FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。

鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜

中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。

字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!

一线大模型,正在全面进入智能体时代。 1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。 OpenAI 甚至给 Operator 开设了单独的产品界面,将它视为与 ChatGPT、Sora 并列的关系,这也符合 Sam Altman、黄仁勋、扎克伯格等科技大佬对于「2025 年将是 AI 智能体之年」的趋势判断。

顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务

如今,基于大模型的智能体,已经能完成许多在几年前还无法想象的任务,进步的速度是如此之快,以至于有些人甚至声称,在接下来的几年内,大多数人类劳动可能都可以实现自动化。 然而近日CMU、杜克大学等机构发表的一项研究却给这一期待泼了一盆凉水。 智能体运营公司还不可行论文链接: Agent Company,与人类员工类似,智能体需要执行软件开发、项目管理、财务分析等典型的商业环境中的任务。

全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻

这些天,硅谷彻底处于中国公司带来的大地震余波中。 全美都在恐慌:是否全球人工智能的中心已经转移到了中国? 就在这当口,全球复现DeepSeek的一波狂潮也来了。

世界模型再进化!博士AdaWM:自适应世界模型规划新SOTA

本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接::基于自适应世界模型的自动驾驶规划。 基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。

人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者

捍卫「人类智慧」最后一战!刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果! 新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。 目前,最好的模型,准确率也小于10%,而且自信「过头」。

曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡

Meta这次真的坐不住了,计划在AI上继续加码! 匿名员工爆料,黑马DeepSeek的出现,让Llama 4还未发布就已经落后,Meta慌了。 就在这一消息沸沸扬扬时,小扎放出消息,2025年继续扩大AI投资。

DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看

“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。

颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级

最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。

六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究

长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。 大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。 没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?

OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!

演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。 顾名思义,Operator就是能帮你端到端处理任务的AI智能体。 比较有趣的是,OpenAI针对Operator新开了一个网页operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在ChatGPT中。

向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling

视觉版o1的初步探索,阶跃星辰&北航团队推出“慢感知”。 研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。 2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。

史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1

史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。

阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节

本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。

贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行

论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。 主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。 作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。