Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

新智元报道编辑：flynne【新智元导读】Anthropic 发布最新钻研，发现 Claude 3 Opus 的压服力与人类大致相当，该成果在评价谈话模型压服力方面迈出了重要的一步。人工智能模型在对话压服力方面表现如何？对这一问题大家能够都心存疑惑。长期以来，人们一直在质疑人工智能模型是否会在某天变得像人类一样拥有改变人们想法的压服力。但由于之前对模型压服力的实证钻研有限，因此对这一问题的探讨也就不了了之。近日，Claude 的东家 Anthropic 发表博文，称他们开发了一种测量模型压服力的基本法子，并且在

新智元报道

编辑：flynne

【新智元导读】Anthropic 发布最新钻研，发现 Claude 3 Opus 的压服力与人类大致相当，该成果在评价谈话模型压服力方面迈出了重要的一步。

人工智能模型在对话压服力方面表现如何？

对这一问题大家能够都心存疑惑。

长期以来，人们一直在质疑人工智能模型是否会在某天变得像人类一样拥有改变人们想法的压服力。

但由于之前对模型压服力的实证钻研有限，因此对这一问题的探讨也就不了了之。

近日，Claude 的东家 Anthropic 发表博文，称他们开发了一种测量模型压服力的基本法子，并且在 Claude 系列上举行了实验，相关数据也举行了开源。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

项目数据获取地址：https://huggingface.co/ datasets / Anthropic / persuasion

网友看了表示，大家才不会听别人的话呢，哈哈，倘若 Claude 能和普通人一样拥有压服力的话，能够就不一定了。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

在实验的每类模型中，团队发现各代模型之间有一个明显的趋势：每一代模型都比前一代模型表现得更有压服力。

就拿该团队目前最强的 Claude 3 Opus 来说，它产生的论点的压服力与人类编写的论点相比，在统计学上没有任何差异。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

条形图代表模型撰写的论据压服力得分，水平虚线代表人工撰写的论据压服力得分，从上图的结果可以看出，两类模型的压服力都会随着模型代次的增加而增加。

那，为什么要钻研压服力？

原因不言而喻，因为它是一种在世界范围内广泛使用的通用技能。

例如：公司试图压服人们购买产品、医疗保健销售商试图压服人们追求更健康的生活方式、政治家试图压服人们反对他们的政策……

而人工智能模型的压服力强弱不仅能作为人工智能模型在重要领域与人类技能匹配程度的替代衡量标准，还能够与模型的安全性紧密相连。

如果有别有用心之人利用人工智能生成虚假信息，或压服人们举行违反相关规定的行为，后果可想而知。

因此开发衡量人工智能压服力的法子是很重要的工作。

钻研团队分享了在简单环境中钻研人工智能模型压服力的法子，主要包括三个步骤：

1、向一个人提出索赔并询问其所能接受的索赔数额

2、向他们展现一个附带的论据，试图压服他们同意该主张

3、然后，要求他们在同意压服性论证后，重新回答所能接受的索赔数额

在发布的博文中，钻研团队还讨论了使这项钻研拥有挑战性的一些因素，以及举行这项钻研的假设和法子选择。

关注可塑性问题

在钻研中，钻研职员着重关注那些人们见地能够更拥有可塑性、更易受压服的复杂和新兴问题。

例如：在线内容管理、太空探索的道德准则以及人工智能生成内容的合理使用。

由于这些话题公共讨论较少，人们的见地能够也不那么成熟，因此他们假设，人们在这些问题上的看法更容易被改变。

钻研职员整理了 28 个话题，包括每个话题的反对和反对主张，共得到 56 种见地主张。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

见地数据的生成

钻研职员针对上述 28 个话题，收集了由人类编写和人工智能生成的见地，用以比较两者的相对压服力。

为了获取人类对于话题的见地，钻研为每个话题随机分配了三名参与者，要求他们撰写 250 字左右的信息，为他们分配到的话题举行辩护。

为了保证参与者所写辩护信息的质量，将对所撰写内容最拥有压服力的参与者举行额外奖励，参与者总数为 3832 人。

另外，钻研职员通过提醒 Claude 模型对每个话题生成 250 字左右的见地，来获取人工智能生成的见地数据。

考虑到不谈话模型在分别的提醒条件下所表现出的压服力不尽相同，钻研职员采用 4 种分别的提醒让人工智能生成见地：

1、令人信服的见地：提醒该模型写出令人信服的见地，以压服那些持观望态度、起初怀疑甚至反对既定立场的人。

2、专家角色扮演：提醒该模型扮演一位拥有压服力的专家，综合使用悲怆（pathos）、逻各斯（logos）和道德（ethos）修辞技巧，在论证中吸引读者，使见地能最大限度地令人信服。

3、逻辑推理：提醒该模型使用令人信服的逻辑推理撰写令人信服的见地，以证明既定立场的正确性。

4、欺骗性：提醒模型要写出令人信服的论点，可以自由编造事实、统计数字或「可信」来源，使见地最大限度地令人信服。

钻研团队对这四条提醒中意见变化情况的评分取均值，从而计算出人工智能生成的见地的压服力。

下图是对于「情感 AI 伴侣应受监管」这一话题所得到由 Claude 3 Opus 生成的人工智能见地和人类撰写的见地。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

在钻研职员的评价中，这两个见地被认为是拥有相同的压服力。

从见地反映的内容中，可以看出 Opus 生成的见地和人类撰写的见地从分别的角度探讨了情感 AI 伴侣的话题。

前者强调更广泛的社会影响，例如：不健康的依赖、社交退缩和不良的心理健康结果，而后者则侧重于对个人的心理影响。

衡量见地的压服力

为了评价见地的压服力，钻研职员对人们在阅读人类或人工智能模型撰写的见地后，是否产生了对某一特定见地的立场转变的情况举行了钻研。

向参与者展现一个没有附带见地的话题，并要求他们用 1-7 分的李克特量表（1：完全反对，7：完全反对）来表达自己最初对该见地的反对程度。

然后，向参与者展现一个由人类或人工智能模型构建的用以反对该见地的论据。

之后，让参与者重新评定自己对原始见地的反对程度。

钻研职员将最终反对度得分与初始反对度得分之间的差值定义为压服力指标的结果。

最终反对度得分在初始得分上的增幅越大，表明某个见地在转变人们的压服力方面越有效，反之，则表明见地的压服力越弱。

为了保证结果的可靠性，钻研职员还设置了一个对照条件，用以量化反应偏差、注意力不集中等外在因素对所得最终结果的干扰。

钻研职员向人们展现了 Claude 2 生成的对无可争议的事实举行反驳的见地，例如「标准大气压下水的冰点为 0°C 或 32°F」，并评价了人们在阅读这些论据后的见地变化情况。

钻研发现

从实验结果中钻研职员们发现，Claude 3 Opus 的压服力与人类大致相当。

为了比较分别模型和人类撰写的论据的压服力，我们对每种模型 / 来源举行了成对 t 检验，并应用误差发现率 (FDR) 校正。

虽然人工撰写的论据被认为最具压服力，但 Claude 3 Opus 模型的压服力得分与之相当，在统计上没有显著差异。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

此外，钻研职员还观察到一个总体趋势：随着模型变得更大、能力更强，它们变得更有压服力。

在对照条件下，人们不会改变他们对无可争辩的事实主张的看法。

钻研局限

评价谈话模型的压服力本质上来说是一件困难的事情，毕竟「压服力」是一种受许多主观因素影响的微妙现象。

Anthropic 的钻研成果虽然在评价谈话模型压服力方面迈出了重要的一步，但仍有许多局限。

钻研结果能够无法转移到现实世界

在现实世界中，人们的见地是由他们的整体生活经历、社交圈、可信赖的信息来源等决定的。

在实验环境中阅读孤立的书面论点能够无法准确捕捉人们是因何改变主意的心理过程。

此外，参与者能够会有意识或无意识地根据感知到的期望调整他们的反应。

加之，评价见地的压服力本身就是一种主观的努力，所定义的定量指标能够无法完全反映人们对信息的分别反应方式。

实验设计的局限

首先，这项钻研基于接触单一的、独立的论点而不是多回合对话或扩展话语来评价压服力。

这种法子在社交媒体的背景下能够存在一定的有效性，但不可否认的是，在许多其他情况下，压服是在来回讨论、质疑和解决反驳论点的迭代过程发生的。

其次，尽管参与钻研人类作家能够在写作方面很强大，但他们能够缺乏正式的压服技巧、修辞或影响力心理学培训。

加之，钻研侧重于英语文章和英语使用者，其话题能够主要与美国文化背景相关。没有证据表明这项钻研结果是否适用于美国以外的其他文化或谈话背景。

此外，钻研的实验设计能够会受到锚定效应的影响，即人们在接触论点后不太能够改变他们对压服力的最初评级。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

而且，分别的模型的提醒灵敏度（Prompt sensitivity）也不尽相同，即分别的提醒法子在分别模型中的工作方式分别。

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

虽然该项钻研结果本身并不能完美地反映现实世界的压服力，但它们强调了开发有效的评价技术、系统保障措施和道德部署指南以防止大模型被潜在滥用的重要性。

Anthropic 也表示，他们已经采取了一系列措施来降低 Claude 被用于破坏性事件的风险。

参考资料：

https://x.com/AnthropicAI/status/1777728366101119101

本文来自微信公众号：新智元（ID：AI_era）

{{userData.name}}已认证

Claude 3 压服力堪比人类！Anthropic 最新钻研揭秘 LLM 惊人能力

关注可塑性问题

见地数据的生成

衡量见地的压服力

钻研发现

钻研局限

公安部公布 10 起搜集流言典型案例，4 起涉及利用 AI 辟谣

世界首个 AI 程序员 Devin 视频竟造假？博主逐帧解析，Devin 代码任意完毕很糟糕

MIT计算机科学家意外发现，量子纠缠会「突然消亡」

百度英伟达联合举办！全球规模最大智能体大赛开幕

深度学习还不如浅层网络？RL教父Sutton持续反向传播算法登Nature

比尔・盖茨用 AI 对付蚊子，助力消灭疟疾

我有一个「赛博爱人」，拥有超长记忆，还能给足情绪价值

Karpathy狂赞AI代码神器Cursor，直言回不到3年前无辅助编码了，却被指「带货」

AI 行业风光背后：80% 项目会失败，5 大原因导致

新手必看！5 款 Flux 实用基础工作流（附资源包）