AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

Meta 公司携手华盛顿大学和卡内基梅隆大学,组建科研团队,合作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。

Meta 公司携手华盛顿大学和卡内基梅隆大学,组建科研团队,合作开发了 ExploreToM 框架,旨在更有效地评估和训练大语言模型(LLM)的心智理论(Theory of Mind,ToM)能力。

心智理论

心智理论(Theory of Mind,ToM)是人类社会智能的基础之一,能让我们能够理解他人的想法、意图和信念。这种认知能力对于有效的沟通和协作至关重要,是复杂社交互动的支柱。

让 AI 也具备 ToM 能力,对于创建能与人类无缝互动的智能体至关重要,只是当前大型语言模型(LLM)在 ToM 方面仍面临巨大挑战。

现有的基准通常缺乏复杂性和多样性,导致高估模型能力。例如,许多基准测试基于简单的预定义场景,无法复制人类用来推断心理状态的复杂推理。

ExploreToM 框架

ExploreToM 通过生成多样化、可扩展的对抗性数据集,为提升 AI 的 ToM 能力奠定了坚实基础。该研究强调了当前模型的局限性,以及高质量训练数据对于弥合这些差距的潜力。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

在数据集方面,ExploreToM 利用 A* 搜索算法和特定领域语言生成多样化、高难度的测试数据集,模拟复杂的社会情景,挑战 LLM 的认知极限。

ExploreToM 与现有基准测试不同,通过创建对抗性故事场景,旨在揭示 LLM 在 ToM 推理中的盲点。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

此外该框架还引入了非对称信念更新机制,可以模拟不同角色对同一情况持有不同观点的复杂社交互动。

主流模型测试效果

GPT-4o 和 Llama-3.1-70B 模型在 ExploreToM 数据集上的准确率分别只有 9% 和 0%,凸显了现有 LLM 在处理复杂 ToM 推理方面的不足。

在 ExploreToM 数据上进行微调后,模型在经典 ToMi 基准测试中的准确率提高了 27 个百分点,证明了该框架的有效性。

AI 的“心智理论”难题:Meta ExploreToM 探索突破之路

AI在线附上参考地址

  • Meta AI Introduces ExploreToM: A Program-Guided Adversarial Data Generation Approach for Theory of Mind Reasoning

  • Explore Theory-of-Mind: Program-Guided Adversarial Data Generation for Theory of Mind Reasoning

  • GitHub

  • huggingface

相关资讯

Meta AI 全球市场扩张,并上线网页版 meta.ai

Meta 公司近日宣布 Llama 3 大语言模型之外,扩展 Meta AI 服务到美国之外的 13 个国家和地区,还宣布上线专门的聊天网站:meta.ai。Meta 公司在新闻稿中表示开始在全球市场扩展 Meta AI,在澳大利亚、加拿大、南非和新加坡等国家和地区推出英语版本。IT之家附上 Meta AI 扩展的国家和地区如下澳大利亚加拿大加纳牙买加马拉维新西兰尼日利亚巴基斯坦新加坡南非乌干达赞比亚津巴布韦Meta AI 整合了 Llama 3 大语言模型,速度更快、智能性更高、功能更强,是执行各种任务的理想选择

Llama3后,Meta又开放自家头显操作系统,打造元宇宙时代新安卓

虽然向第三方开放了操作系统,但 Meta 将继续开发 Quest 头显设备。Meta 誓将开放进行到底。这次把自家 VR 头显 Quest 采用的操作系统「Meta Horizon OS」向第三方硬件制造商开放了,包括华硕、联想和微软等一众企业。此举意在展示作为 MR 操作系统整合者的 Meta 对元宇宙开放的新愿景。至此,Meta 正式向实现元宇宙更开放的计算平台愿景迈出下一步。为实现该恢弘战略,Meta 同时在三方面不断发力,并竭力整合资源:向第三方硬件制造商开放 Meta Quest 设备的操作系统,为消费者

不到60秒就能生成3D「手办」,Meta发力3D生成,ChatGPT时刻要来了吗?

3D 生成,一直在等待它的「ChatGPT时刻」。一直以来,创作 3D 内容是设计和开发视频游戏、增强现实、虚拟现实以及影视特效中最重要的部分。然而,3D 生成具有独特而艰巨的挑战,这是图像和视频等其他生成内容所不具备的。首先,3D 内容在艺术质量、生成速度、3D 网格结构和拓扑质量、UV 贴图结构以及纹理清晰度和分辨率方面具有严格的标准;其次,与其他研究相比,可用的数据量少。虽然该领域有数十亿张图像和视频可供学习,但可用于训练的 3D 内容数量要少三到四个数量级。因此,现阶段的3D 生成还必须从非 3D 的图像和