研究:AI 测谎能力比人类更强,但会对社会交往造成影响

德国维尔茨堡大学当地时间 12 日公布的最新研究显示,在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代,人工智能在测谎方面的表现比人类更佳。图源 Pixabay来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下:在基于文本的谎言检测中,AI 的准确性优于人类。没有 AI 的支持,人们不愿指责他人撒谎。在 AI 的支持下,人们更有可能表达对遇到谎言的怀疑。只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而,大多数人

德国维尔茨堡大学当地时间 12 日公布的最新研究显示,在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代,人工智能在测谎方面的表现比人类更佳。

研究:AI 测谎能力比人类更强,但会对社会交往造成影响

图源 Pixabay

来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下:

在基于文本的谎言检测中,AI 的准确性优于人类。

没有 AI 的支持,人们不愿指责他人撒谎。

在 AI 的支持下,人们更有可能表达对遇到谎言的怀疑

只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而,大多数人会遵循算法的建议。

在为这项研究做准备时,研究团队要求近 1000 人写下他们即将到来的周末计划。除了真实的陈述,他们还被要求写一篇关于他们计划的虚构陈述。为了使他们的虚构陈述“尽可能有说服力”,研究团队还向他们提供了酬金。经过质量检查,团队最终得到了一份包含 768 位作者 1536 篇陈述的数据集。

基于这个数据集,研究团队利用谷歌的开源语言模型 BERT 开发并训练了一个谎言检测算法。经过训练,该算法实际上识别了数据集中将近 81% 的谎言。

在主要研究中,团队随机抽取了 510 份陈述,并招募了另外 2040 名参与者。这些受试者被分成四组,要求他们评估收到的语句是真是假

第一组:需要在没有 AI 支持的情况下评估陈述。

第二组:在做出判断之前,始终会看到算法的评估。

第三组 / 第四组:可主动请求 AI 的评估,但需要为此支付少量费用。

AI在线注:实际情况则是第三组没有主动请求 AI 提供建议,而第四组则向 AI 提出了评估要求,且有求必应。

实验结果如下:

第一组成员判断准确率为 46.5%(大致与随机猜测相当)。

第二组成员判断准确率为 60.1%。

人们通常不愿指责他人撒谎:第一组中,不到 20%的成员选择指出谎言;第二组成员自动收到 AI 的评估,指出谎言人数为 30%;第四组成员的“指责率”显著上升到约 58%。

只有大约三分之一的人要求谎言检测算法提供辅助。要求预测的人群非常倾向于遵循算法的建议,遵循率约为 88%。

在自动接受 AI 评估的人中,只有 57% 的人遵从其建议。

当 AI 判定一项陈述为“谎言”时,这种差异变得更加明显:85%请求 AI 评估的人同意 AI 作出的判断;而在自动收到 AI 评估的人中,只有 40%遵循 AI 的建议。

AI在线附论文地址:https://doi.org/10.1016/j.isci.2024.110201.

相关资讯

IDC 首次发布移动端 AI 大模型应用报告:百度文心一言发展较全面、抖音豆包用户活跃度表现出色

市场调查机构 IDC 昨日(9 月 2 日)首次发布了移动端大模型应用市场竞争力分析研究报告,评估了市场上 8 款热门 Chatbot 聊天机器人模型,并分析、洞察了相关 AI 模型的性能和特征。AI在线附上本次评估的 8 款 Chatbot App 如下(按照公司拼音首字母顺序排列):kimi 智能助手豆包海螺 AI天工通义文心一言讯飞星火智谱清言评估方案该评估模型初版主要聚焦于利用现有 App 相关的数据来剖析市场现状,揭示 Chatbot 在实际应用场景中的表现与局限。具体指标包括:市场影响力、用户活跃度、用

大模型增速远超摩尔定律!MIT 最新研究:人类快要喂不饱 AI 了

【新智元导读】近日,来自 MIT (麻省理工学院)的研究人员发表了关于大模型能力增速的研究,结果表明,LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!硬件马上就要跟不上啦!我们人类可能要养不起 AI 了!近日,来自 MIT FutureTech 的研究人员发表了一项关于大模型能力增长速度的研究,结果表明:LLM 的能力大约每 8 个月就会翻一倍,速度远超摩尔定律!论文地址: 的能力提升大部分来自于算力,而摩尔定律代表着硬件算力的发展,—— 也就是说,随着时间的推移,终有一天我们将无法满足 LLM 所需要

每年节省 2000 多万美元,美国得州率先利用 AI 阅卷给学生评分

感谢得克萨斯州成为美国首个公开采用人工智能阅卷评分的州。得州近日宣布学术准备评估(STAAR)考试中笔试部分将使用“自动评分引擎”给学生打分。IT之家注:STAAR 是在每学年结束时,美国得州针对 3 至 12 年级公立学校学生,评估其能力的考试。STAAR 考试基于得州课程标准,涵盖包括阅读,写作,数学,科学和社会学在内的核心科目。美国得州于 2023 年开始推进 STAAR 考试改革,修订后的考试减少了选择题,开放式问题数量是此前的 7 倍。TEA 学生评估主管 Jose Rios 表示未来的考试尽可能推行开放