研究：AI 测谎能力比人类更强，但会对社会交往造成影响

2024-07-15 04:51

德国维尔茨堡大学当地时间 12 日公布的最新研究显示，在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代，人工智能在测谎方面的表现比人类更佳。图源 Pixabay来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下：在基于文本的谎言检测中，AI 的准确性优于人类。没有 AI 的支持，人们不愿指责他人撒谎。在 AI 的支持下，人们更有可能表达对遇到谎言的怀疑。只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而，大多数人

德国维尔茨堡大学当地时间 12 日公布的最新研究显示，在假新闻、政治家的可疑言论和被操纵的视频日益泛滥的时代，人工智能在测谎方面的表现比人类更佳。

图源 Pixabay

来自维尔茨堡、杜伊斯堡、柏林和图卢兹的研究人员探讨了 AI 在检测谎言方面的有效性及其对人类行为的影响。这项研究的主要发现可以总结如下：

在基于文本的谎言检测中，AI 的准确性优于人类。

没有 AI 的支持，人们不愿指责他人撒谎。

在 AI 的支持下，人们更有可能表达对遇到谎言的怀疑。

只有大约三分之一的研究参与者会利用向 AI 询问评估的机会。然而，大多数人会遵循算法的建议。

在为这项研究做准备时，研究团队要求近 1000 人写下他们即将到来的周末计划。除了真实的陈述，他们还被要求写一篇关于他们计划的虚构陈述。为了使他们的虚构陈述“尽可能有说服力”，研究团队还向他们提供了酬金。经过质量检查，团队最终得到了一份包含 768 位作者 1536 篇陈述的数据集。

基于这个数据集，研究团队利用谷歌的开源语言模型 BERT 开发并训练了一个谎言检测算法。经过训练，该算法实际上识别了数据集中将近 81% 的谎言。

在主要研究中，团队随机抽取了 510 份陈述，并招募了另外 2040 名参与者。这些受试者被分成四组，要求他们评估收到的语句是真是假。

第一组：需要在没有 AI 支持的情况下评估陈述。

第二组：在做出判断之前，始终会看到算法的评估。

第三组 / 第四组：可主动请求 AI 的评估，但需要为此支付少量费用。

AI在线注：实际情况则是第三组没有主动请求 AI 提供建议，而第四组则向 AI 提出了评估要求，且有求必应。

实验结果如下：

第一组成员判断准确率为 46.5%（大致与随机猜测相当）。

第二组成员判断准确率为 60.1%。

人们通常不愿指责他人撒谎：第一组中，不到 20％的成员选择指出谎言；第二组成员自动收到 AI 的评估，指出谎言人数为 30％；第四组成员的“指责率”显著上升到约 58％。

只有大约三分之一的人要求谎言检测算法提供辅助。要求预测的人群非常倾向于遵循算法的建议，遵循率约为 88%。

在自动接受 AI 评估的人中，只有 57% 的人遵从其建议。

当 AI 判定一项陈述为“谎言”时，这种差异变得更加明显：85％请求 AI 评估的人同意 AI 作出的判断；而在自动收到 AI 评估的人中，只有 40％遵循 AI 的建议。

AI在线附论文地址：https://doi.org/10.1016/j.isci.2024.110201.

IDC 首次发布移动端 AI 大模型应用报告：百度文心一言发展较全面、抖音豆包用户活跃度表现出色

市场调查机构 IDC 昨日（9 月 2 日）首次发布了移动端大模型应用市场竞争力分析研究报告，评估了市场上 8 款热门 Chatbot 聊天机器人模型，并分析、洞察了相关 AI 模型的性能和特征。AI在线附上本次评估的 8 款 Chatbot App 如下（按照公司拼音首字母顺序排列）：kimi 智能助手豆包海螺 AI天工通义文心一言讯飞星火智谱清言评估方案该评估模型初版主要聚焦于利用现有 App 相关的数据来剖析市场现状，揭示 Chatbot 在实际应用场景中的表现与局限。具体指标包括：市场影响力、用户活跃度、用

9/3/2024 10:18:31 AM

故渊

大模型增速远超摩尔定律！MIT 最新研究：人类快要喂不饱 AI 了

【新智元导读】近日，来自 MIT （麻省理工学院）的研究人员发表了关于大模型能力增速的研究，结果表明，LLM 的能力大约每 8 个月就会翻一倍，速度远超摩尔定律！硬件马上就要跟不上啦！我们人类可能要养不起 AI 了！近日，来自 MIT FutureTech 的研究人员发表了一项关于大模型能力增长速度的研究，结果表明：LLM 的能力大约每 8 个月就会翻一倍，速度远超摩尔定律！论文地址：的能力提升大部分来自于算力，而摩尔定律代表着硬件算力的发展，—— 也就是说，随着时间的推移，终有一天我们将无法满足 LLM 所需要

3/18/2024 4:41:06 PM

清源

每年节省 2000 多万美元，美国得州率先利用 AI 阅卷给学生评分

感谢得克萨斯州成为美国首个公开采用人工智能阅卷评分的州。得州近日宣布学术准备评估（STAAR）考试中笔试部分将使用“自动评分引擎”给学生打分。IT之家注：STAAR 是在每学年结束时，美国得州针对 3 至 12 年级公立学校学生，评估其能力的考试。STAAR 考试基于得州课程标准，涵盖包括阅读，写作，数学，科学和社会学在内的核心科目。美国得州于 2023 年开始推进 STAAR 考试改革，修订后的考试减少了选择题，开放式问题数量是此前的 7 倍。TEA 学生评估主管 Jose Rios 表示未来的考试尽可能推行开放

4/11/2024 12:08:16 PM

故渊

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ Haisnap横空出世，小白用户也能轻松打造AI应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 本地部署DeepSeek+DiFy平台构建智能体应用韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

研究：AI 测谎能力比人类更强，但会对社会交往造成影响

相关资讯

IDC 首次发布移动端 AI 大模型应用报告：百度文心一言发展较全面、抖音豆包用户活跃度表现出色

大模型增速远超摩尔定律！MIT 最新研究：人类快要喂不饱 AI 了

每年节省 2000 多万美元，美国得州率先利用 AI 阅卷给学生评分