AI资讯列表 - AI在线

Nature:「人类亲吻难题」难倒 LLM，所有大模型全部失败

Nature 上的一项研究，全面驳斥了 LLM （大语言模型）具有类人推理能力的说法。研究者设定的「人类亲吻难题」把 7 个大模型彻底绕晕。最终研究者表示，与其说 LLM 是科学理论，不如说它们更接近工具，比如广义导数。

引领豪华MPV新趋势！比亚迪夏内饰科技广州车展全球首发

11月15日，比亚迪第五代DM技术中大型旗舰MPV夏内饰科技在广州车展正式发布。作为王朝网全新IP夏的首款同名车型，夏采用王朝新一代内饰设计语言，传承华夏文化深厚底蕴，从技术、平台、安全、设计、空间、智享、智驾七大维度，全面引领豪华MPV新趋势，树立30万级豪华MPV价值新标杆。设计引领：王朝新一代内饰设计语言，以华夏之礼待天下夏的外观采用全新华夏龙颜设计，代表着王朝全新的设计审美，对东方美学、华夏文化进行创新演绎。

月之暗面创始人杨植麟：AI 的下一个重要方向是具备“思考能力”

据新浪科技报道，杨植麟认为，接下来AI发展的很重要的一个方向是使AI能够具备思考的能力，数学产品则最适合让AI得到锻炼。

月之暗面发布 k0-math 数学推理模型，能力对标 OpenAI o1

基准测试显示，Kimi k0-math数学能力可对标OpenAI o1系列可公开使用的两个模型：o1-mini和o1-preview。

SU 哈佛亚马逊最新研究：量化能让大模型“恢复记忆”，删掉的隐私版权内容全回来了

也就是大模型在人类要求下“假装”忘记了特定知识（版权、私人内容等），但有手段能让它重新“回忆”起来。

雷蛇发布 Gaiadex：矿物级 AI 分解产品组件，5 分钟内生成 60 页环保报告

科技媒体 CNET 昨日（11 月 15 日）发布博文，报道称雷蛇（Razer）发布了 Gaiadex 可持续工具，借助 AI 可以在 5 分钟内评估产品对地球的影响。

率先解决多类数据同时受损，中科大MIRA团队TRACER入选NeurIPS 2024：强鲁棒性的离线变分贝叶斯强化学习

AIxiv专栏是机器之心发布学术、技术内容的栏目。过去数年，机器之心AIxiv专栏接收报道了2000多篇内容，覆盖全球各大高校与企业的顶级实验室，有效促进了学术交流与传播。如果您有优秀的工作想要分享，欢迎投稿或者联系报道。投稿邮箱：[email protected]；[email protected]。

NeurIPS 2024 | 无需训练，一个框架搞定开放式目标检测、实例分割

LeCun 的世界模型初步实现！基于预训练视觉特征，看一眼任务就能零样本规划

机器之心报道，编辑：Panda。

首个自主机器学习AI工程师，刚问世就秒了OpenAI o1，Kaggle大师拿到饱

机器之心报道，编辑：泽南，亚鹂。

传说中Ilya Sutskever精选论文清单：AI领域40大论文完整版「破解」完成

今年 5 月，一份网传 OpenAI 联合创始人兼首席科学家 Ilya Sutskever 整理的一份机器学习研究文章清单火了。网友称「Ilya 认为掌握了这些内容，你就了解了当前（人工智能领域） 90% 的重要内容。」据说这份论文清单是 2020 年 OpenAI 的联合创始人、首席科学家 Ilya Sutskever 给另一位计算机领域大神，id Software 联合创始人，致力于转行 AGI 的 John Carmack 编写的。

遏制电话诈骗新招：AI 老奶奶“废话反击”，40 分钟搞崩诈骗者心态

科技媒体 tomsguide 于 11 月 14 日发布博文，报道称英国电信运营商 O2 发布了名为“黛西”（Daisy）的 AI 老奶奶，专门遏制网络诈骗。

可口可乐发布首个完全由 AI 生成的广告：致敬 1995 年经典，但反响不如预期

游戏媒体 IGN 今天（11 月 16 日）发布博文，报道称可口可乐公司推出了首个完全由 AI 生成的视频广告，长度为 16 秒，致敬 1995 年经典“Holidays Are Coming”广告，但推出后遭遇巨大争议。

微软 GraphRAG AI 提效：改善数据检索，tokens 成本降低 77%

科技媒体 winbuzzer 昨日（11 月 15 日）发布博文，报道称微软研究院已更新 GraphRAG 系统，新增了动态社区（dynamic community）选择功能，在改善全局搜索的数据检索同时，tokens 用量减少了 77%。

欧盟发布《通用人工智能业务守则》初稿：明确 AI 风险管理指导方针

科技媒体 engadget 昨日（11 月 15 日）发布博文，欧盟已于 11 月 14 日发布《通用人工智能业务守则》初稿，共计 36 页，目标为开发和使用通用人工智能（GPAI）模型设立监管框架。

LLM 数学基准测试集 FrontierMath 公布：号称多数题型 AI 没学过、业界模型均败北

研究机构 Epoch AI 现公布了一款名为 FrontierMath 的全新 AI 模型数学基准测试集，旨在评估系列模型的数学推理能力。FrontierMath 的题目由人工智能学方面资深专家设计，相应问题号称不仅要求 AI 理解数学概念，还需要具备复杂情境的推理能力，以避免模型利用以前学习过的类似题目进行比对作答。研究机构表示，他们利用 FrontierMath 对当前市场上的 AI 模型进行初步测试，发现这些模型普遍表现不佳，包括此前在 GSM-8K、MATH 上取得近乎满分成绩的 Claude 3.5 和 GPT-4 等模型在 FrontierMath 中的解题成功率也均败北（成功率低于 2%）。

字节即梦 AI 视频生成模型更新 P / S 2.0 Pro 双版本，全量开放使用

即梦 AI 宣布包含具有首帧一致性的 S2.0 Pro 和具有极高提示词遵循能力 P2.0 Pro 视频生成模型全量开放使用。

在AI和LLM架构中实现零信任：安全且负责任的AI系统实践指南

在AI和大型语言模型快速发展的背景下，安全不能再被视为事后的考虑。随着这些技术成为企业运营不可或缺的一部分，实施强有力的安全措施至关重要，然而，AI的安全超越了传统的网络安全实践——它还必须涵盖伦理考量和负责任的AI原则。本指南为IT从业人员和决策者提供了一种在AI和LLM架构中应用零信任原则的综合方法，强调从基础层面融入伦理考量。

资讯列表