Agent不是被卡住了,其实在思考

在与用户进行自然对话时,智能体承担着两大核心任务:一是流畅的对话交流,二是精准的推理与规划。 智能体必须整合所有可用信息以作出回应,同时确保其行为始终围绕既定目标展开。 基于人类“快速思考”和“慢速思考”的认知系统灵感,丹尼尔·卡尼曼提出了一个全新的架构Talker-Reasoner,旨在模拟人类的这两种思维模式。

在与用户进行自然对话时,智能体承担着两大核心任务:一是流畅的对话交流,二是精准的推理与规划。智能体必须整合所有可用信息以作出回应,同时确保其行为始终围绕既定目标展开。

基于人类“快速思考”和“慢速思考”的认知系统灵感,丹尼尔·卡尼曼提出了一个全新的架构Talker-Reasoner,旨在模拟人类的这两种思维模式。

图片

论文地址:

复制
paper: https://arxiv.org/pdf/2410.08328
title: Agents Thinking Fast and Slow: A Talker-Reasoner Architecture Google DeepMind

代理被分为两个部分:一个快速直观的“Talker”代理(系统1)和一个慢速、深思熟虑的“Reasoner” 代理(系统2)。Talker代理负责与用户进行自然语言对话,而Reasoner代理负责复杂的问题解决、信念形成和决策。两者通过记忆进行交互。

图片图片

  1. 快速响应型的Talker组件(第一系统):它的主要职责是处理用户的自然语言交互并生成相应回复。这一组件类似于人类的本能反应,能够快速从存储系统中提取所需信息来支持对话。每当用户发起互动时,Talker组件就会被触发,并通过访问存储系统来指导其回应过程。
  2. 深度思考型的Reasoner组件(第二系统):它专注于执行需要深入思考的多步推理和规划任务。该组件不仅负责调用各种工具和执行具体操作,还要更新系统状态。同时,它也承担着构建和更新用户信念状态的任务,这些信息会以结构化的语言形式保存在存储系统中。

论文在睡眠辅导的现实世界场景中实例化并验证了Talker-Reasoner双代理架构。这个案例研究允许定性测试Reasoner的规划和推理能力以及Talker的互动性。

睡眠辅导智能系统案例分析

睡眠辅导智能系统的构建:

  1. Talker智能体:利用专家提供的指导原则,编码睡眠领域的专业知识。这些原则描述了智能体的特性(如表现同理心、进行对话交流、提供准确建议)和睡眠辅导的各个阶段(包括理解、目标设定和辅导计划)。Talker智能体基于强大的语言模型实现,能够理解复杂模式并生成深思熟虑的对话回应。
  2. Reasoner智能体:专门对用户信念进行建模。研究者与临床专家合作,设计了一个JSON/XML格式的信念模式,涵盖睡眠问题、目标、习惯、障碍和睡眠环境等方面。在执行多步推理/规划时,Reasoner智能体推断并更新这些模式字段,从而创建或修改其信念状态。
  3. Talker和Reasoner的协作:Talker智能体是否等待Reasoner智能体完成操作,取决于当前的信念状态。在制定辅导计划阶段,Talker智能体会等待Reasoner智能体;其他情况下则不会等待。

定性分析结果:

  1. 对话示例:Talker和Reasoner智能体之间的互动过程,包括如何根据用户需求生成回应和制定计划,以及如何根据用户反馈调整方案。
  2. 基于反馈的计划调整:Reasoner智能体如何根据Talker智能体从用户处收集的反馈来优化其计划。

以下是一段示例对话,展示了Reasoner和Talker之间的互动:

复制
用户:嘿,我需要你的帮助来规划如何营造一个放松的睡前环境。(记忆中的信念更新为:{updated-context: starting context, updated-title: Sleep Coaching, coachingphase: UNDERSTANDING})
Talker:太好了,我们开始为你打造一个放松的睡前环境吧:-) 你的卧室里有没有什么可能会干扰你睡眠的东西?
用户:我觉得噪音和光线太分散注意力了。你能帮我制定一个消除这些干扰的计划吗?(记忆中的信念保持不变)
Talker:当然可以!这里有一个消除卧室干扰的计划:噪音:确定噪音源,隔绝外界噪音,使用遮光窗帘来阻挡光线和减少噪音;考虑使用降噪窗帘或隔音板;试试耳塞或白噪音机。光线:...记住,一致性是关键。每晚都坚持这个计划,以营造一个平静而黑暗的睡眠环境。还有什么我可以帮助你的吗?
用户:当然,这很有用。不过,我希望步骤能更详细一些。还想看看如何在我的卧室里营造一个宁静放松的氛围的资源。(记忆中的信念更新为:{user context: UserCollectedContextData(primary-sleep-concern: Noise and light distractions in the bedroom), coaching phase: CoachingPhase(value=PLANNING)})
Reasoner的计划:当然!让我们更深入地看看你的计划的第一步:步骤:选择一个平静的色彩调色板。描述:在选择卧室颜色时,选择柔和的中性色调,如柔和的蓝色、绿色或灰色。这些色调已被科学证明可以促进放松和宁静。1. YouTube视频:(链接)标题:创造放松和无压力卧室的墙面颜色创意。频道:roomdsignTV。推理:这个来自roomdsignTV的视频提供了平静卧室色彩调色板的视觉示例。它展示了舒缓色彩对营造宁静氛围的影响。2. YouTube播放列表:(链接)标题:Berger油漆色彩组合。频道:Hresun Interiors。推理:这个来自Hresun Interiors的播放列表提供了一系列的卧室色彩组合创意。它涵盖了从传统到现代的多种风格,帮助你找到适合卧室的完美色彩方案。
Talker:复制Reasoner的回应

如果对内容有什么疑问和建议可以私信和留言,也可以添加我加入大模型交流群,一起讨论大模型在创作、RAG和agent中的应用。

相关资讯

揭开深度强化学习的神秘面纱

编辑 | 萝卜皮深度强化学习是人工智能最有趣的分支之一。它是人工智能社区许多显着成就的基石,它在棋盘、视频游戏、自动驾驶、机器人硬件设计等领域击败了人类冠军。深度强化学习利用深度神经网络的学习能力,可以解决对于经典强化学习(RL)技术来说过于复杂的问题。深度强化学习比机器学习的其他分支要复杂得多。在这篇文章中,我们将尝试在不涉及技术细节的情况下,揭开它的神秘面纱。状态、奖励和行动每个强化学习问题的核心都是代理和环境。环境提供有关系统状态的信息。代理观察这些状态并通过采取行动与环境交互。动作可以是离散的(例如,拨动开

端侧设备AI代理优化框架问世,领域内准确率可达97%

AIxiv专栏是AI在线发布学术、技术内容的栏目。过去数年,AI在线AIxiv专栏接收报道了2000多篇内容,覆盖全球各大高校与企业的顶级实验室,有效促进了学术交流与传播。如果您有优秀的工作想要分享,欢迎投稿或者联系报道。投稿邮箱:[email protected][email protected]文章由NEXA AI团队联合MIT-IBM Watson AI Lab一起开发。一作Wei Chen(陈伟)是NEXA AI联合创始人,CEO兼首席科学家,斯坦福大学博士,拥有丰富的人工智

我为什么放弃了 LangChain?

如果你关注了过去几个月中人工智能的爆炸式发展,那你大概率听说过 LangChain。简单来说,LangChain 是一个 Python 和 JavaScript 库,由 Harrison Chase 开发,用于连接 OpenAI 的 GPT API(后续已扩展到更多模型)以生成人工智能文本。更具体地说,它是论文《ReAct: Synergizing Reasoning and Acting in Language Models》的实现:该论文展示了一种提示技术,允许模型「推理」(通过思维链)和「行动」(通过能够使用