AI资讯列表 - AI在线

NeurIPS 2024｜浙大 & 微信 & 清华：彻底解决扩散模型反演问题

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年，AI在线AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。

谷歌 Agent 首次发现真实世界代码漏洞：抢救全球数亿设备，有望挽回数十亿美元损失

AI 首次发现真实世界中的重大安全漏洞？ SQLite 中的一个漏洞，幸运地被谷歌研究者的 AI Agent 发现了，修复后并未造成任何损失。莫非 AI 再进化一番，微软的全球蓝屏事故就可以永久避免了？

迪士尼成立新 AI 部门，探索人工智能、混合现实等新型技术的潜力

据路透社报道，华特迪士尼正在组建一个新的小组，以协调公司对人工智能和混合现实等新兴技术的使用，这家媒体巨头正积极探索 AI 等技术在电影、电视和主题公园等业务中的潜力。根据路透社当地时间周五获取的电子邮件，新成立的“技术赋能办公室”（Office of Technology Enablement）将由杰米・沃里斯（Jamie Voris）领导，他是迪士尼电影制片厂的首席技术官，此前主导了迪士尼为苹果 Vision Pro 混合现实设备开发应用的工作。迪士尼娱乐联合主席艾伦・伯格曼（Alan Bergman）在邮件中写道：“人工智能和 XR（扩展现实）技术发展迅速，将对未来的消费者体验、创意项目以及我们的业务产生深远影响。

苹果 AI 研究：“猕猴桃”简单算术考倒 o1 和 Llama 等 20 多个最先进模型

《洛杉矶时报》昨日（11 月 1 日）发布博文，报道称苹果研究团队测试了 20 个最先进的 AI 模型，发现在有干扰项存在的情况下，它们处理简单的算术问题时表现不佳，甚至不如小学生。苹果公司用以下这道简单的算术题测试 20 多个最先进的 AI 模型，AI在线附上题目如下：Oliver 在星期五采摘了 44 个猕猴桃、然后他在星期六采摘了 58 个猕猴桃，星期日采摘的数量是星期五的两倍，不过其中有 5 个猕猴桃的块头要比平均值要小，请问 Oliver 这三天共摘了多少个猕猴桃？正确答案是 190 个，计算公式为 44（星期五） 58（星期六） 88（44*2，星期日）。

克服奖励欺骗：Meta 发布全新后训练方式 CGPO 编程水平直升 5%，打破 RLHF 瓶颈

CGPO 框架通过混合评审机制和约束优化器，有效解决了 RLHF 在多任务学习中的奖励欺骗和多目标优化问题，显著提升了语言模型在多任务环境中的表现。 CGPO 的设计为未来多任务学习提供了新的优化路径，有望进一步提升大型语言模型的效能和稳定性。近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF 逐渐成为调整和优化语言模型输出的主流方法。

奥特曼回答一切：Ilya确实看到了了不起的东西，OpenAI也缺算力

北京时间 11 月 1 日凌晨，OpenAI 宣布为 ChatGPT 推出了最新的人工智能搜索体验。在宣布发布 ChatGPT 搜索后不久，OpenAI 还在 Reddit 上进行了 AMA 问答。在问到 Ilya 到底看到了什么时？

豆包大模型团队开源RLHF框架，训练吞吐量最高提升20倍

强化学习（RL）对大模型复杂推理能力提升有关键作用，但其复杂的计算流程对训练和部署也带来了巨大挑战。近日，字节跳动豆包大模型团队与香港大学联合提出 HybridFlow。这是一个灵活高效的 RL/RLHF 框架，可显著提升训练吞吐量，降低开发和维护复杂度。

为233种疾病推荐候选药物，中国科学院深度生成模型助力药物发现，登Nature子刊

编辑 | 萝卜皮了解转录对化学扰动的反应是药物发现的核心，但对疾病化合物组合进行详尽的实验筛选是不可行的。为了克服这一限制，中国科学院、四川大学华西医院的研究人员提出了 PRnet，这是一种扰动条件下的深度生成模型，可预测转录对从未在体细胞和单细胞水平上进行实验扰动的新化学扰动的反应。评估表明，PRnet 在预测新化合物、新途径和新细胞系的反应方面优于已有方法。

夸克发布“灵知”学习大模型，号称考研数学题正确率、得分率比肩 OpenAI o1

夸克今日宣布全面升级“AI 搜题”产品，用户可通过手机、平板、电脑等设备搜到各类新题和难题，AI 还会分步骤进行题目讲解，并支持用户随时提问。据介绍，夸克 AI 还可围绕题目中的知识点与考点进行深度讲解，精准定位关键步骤，能够以“启发式”学习的体验让用户不仅学会这一道难题，还能举一反三学会一类题。同时，夸克发布“灵知”学习大模型。

强化学习之父Richard Sutton给出一个简单思路，大幅增强所有RL算法

在奖励中减去平均奖励在当今的大模型时代，以 RLHF 为代表的强化学习方法具有无可替代的重要性，甚至成为了 OpenAI ο1 等模型实现强大推理能力的关键。但这些强化学习方法仍有改进空间。近日，强化学习之父、阿尔伯塔大学教授 Richard Sutton 的团队低调更新了一篇论文，其中提出了一种新的通用思想 Reward Centering，并称该思想适用于几乎所有强化学习算法。

“成都造”机器狗在宽窄巷子当夜间“巡逻员”，机器人进入景区将迎常态化

据《成都商报》昨日报道，10 月 30 日晚，机器狗“灵瞳”作为“巡逻员”在宽窄巷子投入使用，其任务是根据景区木制建筑及道路特点，进行夜间安全巡逻示范，巡逻内容包括火灾防范、治安维护等。此次机器人产品的亮相，是机器人进场景长效机制的首次实践，标志着“成都造”机器人进入景区工作的常态化序幕正式拉开。未来，将有更多不同类型和功能的机器人，进入春熙路、大熊猫繁育研究基地等景区承担不同工种并进行常态化工作。

AI自己「长出」了类似大脑的「脑叶」？新研究揭示LLM特征的惊人几何结构

大型语言模型在学习概念时竟然会形成令人惊讶的几何结构，比如代码和数学特征会形成一个「叶（lobe）」，类似于我们在做磁共振功能成像时看到的大脑功能性脑叶。这说明什么呢？论文通讯作者、MIT 物理学教授 Max Tegmark 的推文。

机器人迈向ChatGPT时刻！清华团队首次发现具身智能Scaling Laws

NeurIPS 2024 | 机器人操纵世界模型来了，成功率超过谷歌RT-1 26.6%

谷歌推出新付费功能，借助搜索结果对抗 AI 幻觉问题

谷歌公司昨日（10 月 31 日）发布新闻稿，宣布在其 Google AI Studio 和 Gemini API 中，推出 Grounding with Google Search 功能，支持用户通过谷歌搜索验证 AI 回答内容。主流大模型的挑战包括 OpenAI、Anthropic 和 Google 在内，大部分大语言模型（LLM）由于训练数据集的原因，都有 1 个知识截止日期，因此在回答近期相关事件时，都表现得非常糟糕。新功能简介Grounding with Google Search 功能旨在解决大型语言模型（LLM）在处理最新事件时的响应不足问题，开发者通过结合实时搜索，可以获得更准确和时效性的信息，提升 AI 应用的可靠性和实用性。

继 ChatGPT 后，Anthropic 旗下 Claude AI 推出桌面平台客户端

继 ChatGPT 后，目前又有一款海外流行的人工智能 Claude AI 获得了桌面版客户端，目前相关客户端处于测试状态，支持 Windows / macOS / iOS 平台。开发商 Anthropic 在 X 平台官宣了这一消息，同时透露用户可以使用热键快速唤起客户端界面，不过 Claude AI 客户端定位 AI 搜索引擎，与 OpenAI 的 ChatGPT 客户端聊天有所差异。参考应用详情页，这一 AI 客户端主打语音搜索，不过用户也可以令其写作文章邮件、解决数学问题、判断语法错误、分析文档内容等。

OpenAI 正面对抗谷歌、Perplexity，ChatGPT 搜索功能今日上线

感谢北京时间今日凌晨，OpenAI 宣布在其大模型产品 ChatGPT 中新增了搜索功能，正式进军由 Alphabet 旗下 Google 长期主导的搜索领域，同时也与微软的必应和新兴搜索型 AI 聊天机器人服务 Perplexity 形成竞争。 OpenAI 表示，ChatGPT 搜索功能会根据用户的需求自动决定是否检索网络，能够快速提供最新信息，并附上相关的网页链接。官方博客表示，ChatGPT 搜索功能利用第三方搜索供应商的技术，并整合合作伙伴直接提供的内容，来满足用户的信息需求。

因效果不佳，消息称亚马逊“大模型加成”新款 Alexa AI 智能助理正式版已推迟至明年发布

据外媒 The Verge 报道，亚马逊旗下基于人工智能重塑的新版 Alexa 正式版已被推迟到明年发布。亚马逊在去年 9 月首次宣布了新版 Alexa，其主要在现在的语音助理基础上获得 AI 大模型能力（类似于添加了“苹果牌 AI”Apple Intelligence 的 Siri），先前用户可以通过 Echo 音箱调用新款 Alexa 测试版与其聊天，但目前亚马逊已悄悄关闭这项测试功能。 ▲ 用户可以通过 Echo 音箱调用新款 Alexa 测试版聊天，图源亚马逊AI在线获悉，彭博社的“消息人士”声称，亚马逊认为当下的新版 Alexa 在能力上有所欠缺，其“反应缓慢、语音僵硬、功能较少”，且扰乱 Echo 音箱原先控制智能家居的能力，因此最终选择“重新设计 Alexa 的大脑”，将相关 AI 推迟到明年发布。