模型
单张照片生成3D头部模型!Adobe提出FaceLift,从单一人脸图像重建360度头部模型
本文经AIGC Studio公众号授权转载,转载请联系出处。 FaceLift是Adobe和加州大学默塞德分校推出的单图像到3D头部模型的转换技术,能从单一的人脸图像中重建出360度的头部模型。 FaceLift基于两阶段的流程实现:基于扩散的多视图生成模型从单张人脸图像生成一致的侧面和背面视图;生成的视图被输入到GS-LRM重建器中,产出详细的3D高斯表示。
1/27/2025 9:32:23 AM
量子位
鄂维南李航领衔造高级论文搜索Agent,召回率和精准性超谷歌学术等,磕盐党狂喜
中科院院士鄂维南、字节AI实验室总监李航领衔,推出高级论文搜索Agent。 名为PaSa,两个Agent分别执行多轮搜索和判断论文是否满足查询要求的任务,模仿人类复杂学术搜索行为。 现在就有Demo可玩。
1/27/2025 9:00:00 AM
量子位
字节版Operator抢跑OpenAI? 直接免费开源, 网友:怒省200美元!
一线大模型,正在全面进入智能体时代。 1 月 24 日凌晨 2 点,OpenAI 面向月供 200 美元的 ChatGPT Pro 用户发布了自家的 Computer Use 智能体:Operator。 OpenAI 甚至给 Operator 开设了单独的产品界面,将它视为与 ChatGPT、Sora 并列的关系,这也符合 Sam Altman、黄仁勋、扎克伯格等科技大佬对于「2025 年将是 AI 智能体之年」的趋势判断。
1/26/2025 2:07:34 PM
机器之心
顶级AI智能体不会社交,创业远不如人类!CMU等:最多完成24%任务
如今,基于大模型的智能体,已经能完成许多在几年前还无法想象的任务,进步的速度是如此之快,以至于有些人甚至声称,在接下来的几年内,大多数人类劳动可能都可以实现自动化。 然而近日CMU、杜克大学等机构发表的一项研究却给这一期待泼了一盆凉水。 智能体运营公司还不可行论文链接: Agent Company,与人类员工类似,智能体需要执行软件开发、项目管理、财务分析等典型的商业环境中的任务。
1/26/2025 1:07:50 PM
新智元
全球掀DeepSeek复现狂潮!硅谷巨头神话崩塌,30刀见证啊哈时刻
这些天,硅谷彻底处于中国公司带来的大地震余波中。 全美都在恐慌:是否全球人工智能的中心已经转移到了中国? 就在这当口,全球复现DeepSeek的一波狂潮也来了。
1/26/2025 1:03:35 PM
新智元
世界模型再进化!博士AdaWM:自适应世界模型规划新SOTA
本文经自动驾驶之心公众号授权转载,转载请联系出处。 论文链接::基于自适应世界模型的自动驾驶规划。 基于世界模型的强化学习(RL)已经成为一种有前景的自动驾驶方法,它学习潜在动态模型并且用其训练规划策略。
1/26/2025 11:00:00 AM
自动驾驶专栏
人类最后一次考试,AI惨败正确率<10%!数百顶级专家联手出题,DeepSeek竟是王者
捍卫「人类智慧」最后一战!刚刚,Scale AI和Center for AI Safety(CAIS)公布了「人类最后一场考试」结果! 新基准全称「人类最后一次考试」(Humanity’s Last Exam),简称「HLM」,包含3000个问题,由数百位领域专家开发,用于追寻人类知识推理的边界。 目前,最好的模型,准确率也小于10%,而且自信「过头」。
1/26/2025 9:45:00 AM
新智元
曝DeepSeek让Llama4未发布已落后!小扎坐不住了:2025预算4000亿起步,年底AI算力将达130万卡
Meta这次真的坐不住了,计划在AI上继续加码! 匿名员工爆料,黑马DeepSeek的出现,让Llama 4还未发布就已经落后,Meta慌了。 就在这一消息沸沸扬扬时,小扎放出消息,2025年继续扩大AI投资。
1/26/2025 9:00:00 AM
量子位
DeepSeek-R1持续震撼硅谷:跻身竞技榜前三,创始人梁文锋采访被“拿放大镜”看
“神秘东方力量”DeepSeek给硅谷带来的影响,还在不断泛起涟漪——刚刚,DeepSeek-R1跻身大模型竞技榜前三。 以开源、便宜20倍的“身价”与ChatGPT-4o(2024.11.20)并列。 在复杂提示词/风格控制榜单上,R1位列第一。
1/26/2025 8:00:00 AM
量子位
颠覆LLM格局!AI2新模型OLMo2,训练过程全公开,数据架构双升级
最近,非营利研究机构AI2上新了OLMo2系列模型,他们称之为「迄今为止最好的完全开源模型」。 OLMo 2系列包含7B和13B两个型号,相比如Llama 3.1和Qwen 2.5等开源模型达到了同等甚至更优的性能,同时FLOPS计算量更少,在性能和计算效率之间取得了极佳的平衡,为开源LLM开辟了新的可能性。 不同大小开源模型的性能对比,OLMo 2的表现优于同参数规模模型在多个下游任务上,OLMo 2展现出了强大的泛化能力和适应能力。
1/24/2025 3:40:00 PM
新智元
六大维度,LLM「问题生成」首次正面PK人类!伯克利等发布最新研究
长期以来,问题生成(Question Generation)任务都是根据「给定事实」来编写各种相关问题,已经发展出了很多自动化的方法。 大型语言模型(LLM)的兴起,极大提升了各种自然语言处理(NLP)任务的性能,其中也包括问题生成,虽然应用广泛,但还没有研究讨论过「用LLMs生成问题的特点」。 没有额外提示约束时,LLMs是更倾向于生成较长还是较短的问题?
1/24/2025 3:30:00 PM
新智元
OpenAI首个智能体Operator大测评,你也能拥有24小时私人管家!
演唱会抢票终于不用自己蹲守了,公司订餐也可以直接「无脑托管」,这就是OpenAI今天发布的Operator。 顾名思义,Operator就是能帮你端到端处理任务的AI智能体。 比较有趣的是,OpenAI针对Operator新开了一个网页operator.chatgpt.com,而不是像之前发布的功能都直接统一内置在ChatGPT中。
1/24/2025 3:09:43 PM
新智元
向视觉版o1出击,阶跃张祥雨团队推出“慢感知”,实现感知层面的推理时scaling
视觉版o1的初步探索,阶跃星辰&北航团队推出“慢感知”。 研究人员认为:1)目前多模领域o1-like的模型,主要关注文本推理,对视觉感知的关注不够。 2)精细/深度感知是一个复杂任务,且是未来做视觉推理的重要基础。
1/24/2025 3:05:09 PM
量子位
史上最难大模型测试集,千名专家铸成!没有模型得分超过10%,但DeepSeek-R1超o1
史上最难的大模型测试集来了! 包括o1在内,没有任何一个模型得分超过10%。 题目来自500多家机构的1000多名学者,最终入围的题目有3000多道,全部都是研究生及以上难度。
1/24/2025 3:03:27 PM
量子位
阿里云通义大模型新技术:MoE模型训练专家平衡的关键细节
本周,在阿里云通义千问 Qwen 团队提交的一篇论文中,研究人员发现了目前最热门的 MoE(混合专家模型)训练中存在的一个普遍关键问题,并提出一种全新的方法——通过轻量的通信将局部均衡放松为全局均衡,使得 MoE 模型的性能和专家特异性都得到了显著的提升。 论文:《Demons in the Detail: On Implementing Load Balancing Loss for Training Specialized Mixture-of-Expert Models》论文链接: 模型训练中的关键问题混合专家模型(MoEs)通过路由机制动态并稀疏地激活模型参数,使得能高效地增大模型参数规模。 基于 TopK 机制的稀疏激活会在训练中会遇到专家激活不均衡的问题:少数被频繁选择的专家会被优化得更多,进一步使得这些专家被更频繁地选择,最终导致只选择少数专家,造成剩余专家的冗余。
1/24/2025 2:19:21 PM
机器之心
贾佳亚团队联合Adobe提出GenProp,物体追踪移除特效样样在行
论文一作刘少腾,Adobe Research实习生,香港中文大学博士生(DV Lab),师从贾佳亚教授。 主要研究方向是多模态大模型和生成模型,包含图像视频的生成、理解与编辑。 作者Tianyu Wang、Soo Ye Kim等均为Adobe Research Scientist。
1/24/2025 2:14:35 PM
机器之心
中国AI太强,Meta工程师吓疯?自曝疯狂熬夜复制DeepSeek,天价高管心虚了
今天,Meta员工在匿名社区TeamBlind上的一个帖子,在业内被传疯了。 DeepSeek,真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型,而且与o1不同, R1还是开源模型「Open Source Model」,比OpenAI还Open!更有人曝料,DeepSeek还只是个「副项目」,主业根本不是搞大模型!
1/24/2025 1:20:00 PM
新智元
阿里通义实验室提出AnyStory:开启个性化文本到图像生成的新篇章!
在这个数字化时代,生成式AI技术正以前所未有的速度改变着我们的创作方式。 近期,阿里通义实验室发表了一篇题为《AnyStory: Towards Unified Single and Multi-Subject Personalization in Text-to-Image Generation》的论文,该论文提出了一种创新的框架,旨在通过统一的路径实现单个及多个主体的个性化文本到图像生成,为故事可视化、艺术创作乃至更多领域带来了革命性的突破。 论文中深入探讨了当前文本到图像生成技术面临的挑战,如主体一致性、细节保留以及多主体个性化等方面的不足。
1/24/2025 12:11:21 PM
AIGC Studio
资讯热榜
上海AI实验室开源InternVL3系列多模态大型语言模型
Haisnap横空出世,小白用户也能轻松打造AI应用
「交交」媲美GPT-4o!上海交大推出口语对话情感大模型,首个纯学术界自研!
全日程揭晓!ICLR 2025论文分享会我们北京见
5分钟直出46页论文!谷歌Deep Research完爆OpenAI,最强Gemini 2.5加持
kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking,多项基准超越 GPT-4o
击败DeepSeek-R1!豆包新推理模型仅用前者参数量1/3!还将开源两个基准,瞄准通用推理能力!
ChatGPT重大更新,能翻出所有历史对话,网友被AI聊破防了
标签云
人工智能
OpenAI
AIGC
AI
ChatGPT
DeepSeek
AI绘画
数据
机器人
谷歌
模型
大模型
Midjourney
智能
用户
学习
开源
GPT
微软
Meta
AI创作
图像
技术
论文
Stable Diffusion
马斯克
Gemini
算法
蛋白质
生成式
芯片
代码
英伟达
神经网络
腾讯
计算
研究
Sora
AI for Science
3D
Anthropic
AI设计
机器学习
GPU
开发者
场景
华为
预测
伟达
Transformer
百度
深度学习
苹果
AI视频
模态
驾驶
文本
人形机器人
xAI
搜索
大语言模型
Copilot
Claude
字节跳动
具身智能
神器推荐
LLaMA
算力
安全
应用
视频生成
科技
视觉
亚马逊
干货合集
2024
AGI
特斯拉
DeepMind
训练