数据

纯视觉方案，精准操控电脑和手机！港大Aria-UI登顶，超越Claude 3.5

在当今数字时代，智能助手已成为处理跨平台任务的不可或缺工具。然而，如何将用户的自然语言指令精准映射（grounding）到界面元素一直是该领域的核心挑战。传统解决方案主要依赖调用无障碍API、解析HTML源码或提取后台数据，这些方法普遍存在效率低下、信息不完整、兼容性差等显著痛点，严重制约了自动化技术的广泛应用。

1/8/2025 2:43:30 PM

新智元

AAAI 2025 | 大模型推理加速新范式：加速比高达3.51倍、成本降至1/3

近日，中国电信翼支付针对大模型推理加速的最新研究成果《Falcon: Faster and Parallel Inference of Large Language Models through Enhanced Semi-Autoregressive Drafting and Custom-Designed Decoding Tree》已被 AAAI 2025 接收。论文中提出的 Falcon 方法是一种增强半自回归投机解码框架，旨在增强 draft model 的并行性和输出质量，以有效提升大模型的推理速度。 Falcon 可以实现约 2.91-3.51 倍的加速比，在多种数据集上获得了很好的结果，并已应用到翼支付多个实际业务中。

1/8/2025 1:15:02 PM

机器之心

o1也会「想太多」？腾讯AI Lab与上海交大揭秘o1模型过度思考问题

本文的共同通讯作者为涂兆鹏和王瑞，涂兆鹏为腾讯专家研究员，研究方向为深度学习和大模型，在国际顶级期刊和会议上发表学术论文一百余篇，引用超过9000次。担任SCI期刊NeuroComputing副主编，多次担任ACL、EMNLP、ICLR等国际顶级会议领域主席。王瑞为上海交通大学副教授，研究方向为计算语言学。

1/8/2025 1:08:55 PM

机器之心

奥特曼家里也内讧了！亲妹告他长期虐待，刻意隐瞒遗产；家里其他人联名否认

我去，OpenAI CEO奥特曼的亲妹妹，一纸状书，把她亲哥给告了！想不到让奥特曼再次陷入舆论危机的矛头，这次居然来自家庭内部，来自小他9岁的妹妹安妮·奥特曼（Annie Altman）。事态紧急，奥特曼立刻联名母亲和两位弟弟，共同发布回应：不，指控不实。

1/8/2025 11:57:28 AM

量子位

1/10训练数据超越GPT-4o！清华等提出隐式过程奖励模型PRIME，在线刷SOTA

告诉我，我会忘记，教我，我会记住，让我参与，我就能学会。 ——本杰明·富兰克林打破数据墙，我们还能做些什么？近日，来自清华UIUC等机构的研究者提出了PRIME（Process Reinforcement through IMplicit REwards）：通过隐式奖励来进行过程强化。

1/8/2025 9:00:00 AM

新智元

RTX5090震撼发布，国行16499元起，黄仁勋「美国队长」pose亮翻全场

老黄穿上了新皮衣，拿来了新 GPU。今天上午，全世界的目光都集中在了拉斯维加斯。北京时间 1 月 7 日上午 10 点半，英伟达 CEO 黄仁勋在拉斯维加斯 CES 2025 展会上发表了主题演讲（keynote），涉及到的话题包括 GPU、AI、游戏、机器人等等。

1/7/2025 2:00:00 PM

机器之心

手机「自动驾驶」大揭秘！vivo万字综述探讨大模型手机自动化

导言你是否想过，手机能像电影钢铁侠中的智能管家贾维斯那般，一句话就能顺畅自如地完成各种复杂任务。最近国内外的手机厂商和 AI 公司纷纷发布了手机 AI 智能体相关产品，让曾经的幻想逐渐有了可行性。 vivo 作为行业领跑者，在十月的开发者大会上推出了其手机智能体产品 “PhoneGPT"，能帮用户实现一句话点咖啡、订外卖、甚至能够一句话找到最近的私房菜馆并通过 AI 实现电话预定包厢，被网友们称作 “i 人救星”。

1/7/2025 1:22:58 PM

机器之心

陈丹琦团队降本大法又来了：数据砍掉三分之一，性能却完全不减

陈丹琦团队又带着他们的降本大法来了——数据砍掉三分之一，大模型性能却完全不减。他们引入了元数据，加速了大模型预训练的同时，也不增加单独的计算开销。在不同模型规模（600M - 8B）和训练数据来源的情况下，均能实现性能方面的提升。

1/7/2025 12:55:00 PM

量子位

复旦&字节提出layout-to-image新范式，支持基于布局的MM-DiT架构下可控图像生成！

本篇分享论文CreatiLayout: Siamese Multimodal Diffusion Transformer for Creative Layout-to-Image Generation，是由复旦大学&字节跳动提出的layout-to-image新范式，支持基于布局的MM-DiT架构下的可控图像生成！效果示例相关链接论文地址: : : : : (Layout-to-Image, L2I) 是一种基于布局信息进行可控图像生成的技术，其中布局信息包括实体在图像中的空间位置和描述。例如，用户指定了这些实体的描述与空间位置：钢铁侠手里拿着画板，站在岩石上，画板上用手绘字体写着“CreatiLayout”，背景是海边与日落。

1/7/2025 10:20:00 AM

Hui Zhang等

AAAI 2025 | IML领域稀疏化视觉Transformer，代码已开源

SparseViT 的主要科研成员来自四川大学吕建成团队，合作方为澳门大学潘治文教授团队。论文：《Can We Get Rid of Handcrafted Feature Extractors? SparseViT: Nonsemantics-Centered, Parameter-Efficient Image Manipulation Localization through Spare-Coding Transformer》论文链接：：，图像处理变得非常方便。

1/7/2025 12:00:00 AM

机器之心

GPT-4o最自私，Claude更慷慨！DeepMind发布全新「AI道德测试」

大语言模型的能力越来越强，各大厂商的目标也逐渐从简单的「互联网搜索」扩展到「可操作设备的智能体」，可以帮用户完成订外卖、购物、买电影票等复杂的任务。在可预见的未来，人手一个LLM智能体助手，「人机协同」参与社会互动的情况将成为常态，但是，能力到位了，大模型的「道德品质」足以营造出一个良好的竞争、合作、谈判、协调和信息共享的环境吗？是互相合作，还是为了达成任务目标，而不择手段？

1/6/2025 1:15:02 PM

新智元

仅需一万块钱！清华团队靠强化学习让 7B模型数学打败GPT-4o

OpenAI o1和o3模型的发布证明了强化学习能够让大模型拥有像人一样的快速迭代试错、深度思考的高阶推理能力，在基于模仿学习的Scaling Law逐渐受到质疑的今天，基于探索的强化学习有望带来新的Scaling Law。近日，清华大学NLP实验室、上海AI Lab、清华大学电子系、OpenBMB社区等团队提出一种新的结合过程奖励的强化学习方法——PRIME（Process Reinforcement through IMplicit REwards）。采用PRIME方法，研究人员不依赖任何蒸馏数据和模仿学习，仅用8张A100，花费一万块钱左右，不到10天时间，就能高效训练出一个数学能力超过 GPT-4o、Llama-3.1-70B的7B模型 Eurus-2-7B-PRIME。

1/6/2025 12:46:16 PM

量子位

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

就在今天，国内的一篇论文，引得全球AI学者震惊不已。推上多位网友表示，OpenAI o1和o3模型背后究竟是何原理——这一未解之谜，被中国研究者「发现」了！注：作者是对如何逼近此类模型进行了理论分析，并未声称已经「破解」了这个问题实际上，在这篇长达51页的论文中，来自复旦大学等机构的研究人员，从强化学习的角度分析了实现o1的路线图。

1/6/2025 8:30:00 AM

新智元

OpenAI再招华人研究员！高中入围美国“少年诺贝尔奖”，还在哈佛教书

就在刚刚，哈佛华人研究员Jeffrey Wang正式官宣加入OpenAI——将作为基础团队研究员，负责模型预训练和推理。消息公布后，OpenAI联创&总裁Greg Brockman也在第一时间带队欢迎。在这之前，Jeffrey Wang在哈佛一边教课一边研究机器学习。

1/3/2025 4:00:00 PM

量子位

你的专属“钢铁侠”助手OS Agents来了！浙大联手OPPO、零一万物等10个机构推出全新综述

电影《钢铁侠》中，托尼·斯塔克的助手贾维斯（J.A.R.V.I.S.）能帮他控制各种系统并自动完成任务，曾让无数观众羡慕不已。现在，这样的超级智能助手，终于变成现实了！随着多模态大语言模型的爆发式进化，OS Agents横空出世，它们能无缝操控电脑和手机，为你自动搞定繁琐任务。

1/3/2025 3:44:09 PM

量子位

动物版谷歌翻译来了？Nature：用AI解码野性的呼唤！

每一种动物都有其独特的历史。来自加拿大Carleton University的鲸鱼生物学家Shane Gero，花了20年时间试图了解鲸鱼是如何交流的。比如，同一个家族的鲸鱼会发出特定的声音，而不同区域的抹香鲸（Physeter macrocephalus）有自己的「方言」。

1/3/2025 1:00:00 PM

新智元

多模态模型已落地多领域，OpenBayes贝式计算获评「大模型最具潜力创业企业 TOP 10」

缩放定律的放缓带来的技术路径演变在 2024 年的 NeurIPS 会议上，Ilya Sutskever 提出了一系列关于人工智能发展的挑战性观点，尤其集中于 Scaling Law 的观点：「现有的预训练方法将会结束」，这不仅是一次技术的自然演进，也可能标志着对当前「大力出奇迹」方法的根本性质疑。 Ilya 讨论了预训练模型的局限性，预见 AI 系统需要发展出更加接近人类思考方式的推理能力。他强调，为了突破当前的局限并继续提升 AI 的能力，必须寻找新的训练方法。

1/2/2025 2:20:00 PM

机器之心

全面打破GPT-4垄断、DeepSeek打下训练成本...2024年大模型领域进展全复盘

刚刚过去的 2024 年是生成式 AI 大发展的一年，我们见证了 OpenAI Sora 的崛起，大模型服务价格的飞速下降，以及国内开源大模型的奋起直追。这全方位的快速发展让我们对下一波 AI 的新技术大规模应用充满了信心。对于身在 AI 领域的工程师和学者们来说，他们看待这一年的观点会有不同吗？

1/2/2025 1:15:00 PM

机器之心

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶文本搜索字节跳动大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练 DeepMind