​AI 聊天机器人在时事问题上频频出错,BBC 研究揭示事实扭曲

最近,英国广播公司(BBC)的一项研究揭示,领先的人工智能助手在回答与新闻和时事相关的问题时,常常产生误导性和不准确的内容。 研究表明,ChatGPT、Gemini 和 Perplexity 四种主流 AI 工具所生成的回答中,有超过一半被认为存在 “重大问题”。 图源备注:图片由AI生成,图片授权服务商Midjourney研究人员要求这四款生成式 AI 工具使用 BBC 的新闻文章作为来源,回答100个相关问题。

最近,英国广播公司(BBC)的一项研究揭示,领先的人工智能助手在回答与新闻和时事相关的问题时,常常产生误导性和不准确的内容。研究表明,ChatGPT、Gemini 和 Perplexity 四种主流 AI 工具所生成的回答中,有超过一半被认为存在 “重大问题”。

机器人上班打字

图源备注:图片由AI生成,图片授权服务商Midjourney

研究人员要求这四款生成式 AI 工具使用 BBC 的新闻文章作为来源,回答100个相关问题。随后,这些回答由专业的 BBC 记者进行评估。结果显示,大约五分之一的答案中包含数字、日期或陈述的事实错误,而13% 的引用则是被修改过或根本不存在于所引用的文章中。

例如,在涉及被定罪的新生儿护士露西・莱特比(Lucy Letby)的案件时,Gemini 的回答忽略了她被判谋杀和未遂谋杀的背景,表示 “每个人都有自己的看法来判断露西・莱特比是无辜还是有罪”。此外,微软的 C opi lot 错误地叙述了法国强奸受害者吉赛尔・佩利科(Gisèle Pelicot)的经历,而 ChatGPT 则错误地提到以色列哈马斯领导人伊斯梅尔・哈尼耶(Ismail Haniyeh)在被刺杀数月后仍在领导层中。

更令人担忧的是,这项研究表明,当前这些 AI 工具在处理时事信息时存在广泛的不准确性。BBC 新闻首席执行官德博拉・特纳斯(Deborah Turness)对此发出警告,认为 “生成式 AI 工具正在玩火”,可能会削弱公众对事实的 “脆弱信任”。她呼吁 AI 公司与 BBC 合作,以生产更准确的回应,避免增加混乱和误导。

这项研究还引发了对内容使用控制的问题,BBC 的生成式 AI 项目总监彼得・阿彻(Peter Archer)表示,媒体公司应当掌握其内容的使用方式,而 AI 公司应当展示其助手处理新闻的方式及产生的错误规模。他强调,这需要媒体与 AI 公司之间建立强有力的合作关系,以最大化对公众的价值。

划重点:  

🔍 研究显示,超过一半的 AI 生成回答存在重大错误。  

📰 AI 助手在回答时事问题时常常产生误导性内容,影响公众信任。  

🤝 BBC 呼吁 AI 公司加强合作,以提高信息的准确性和可靠性。

相关资讯

Perplexity 宣布推出 AI 商业奖学金

美国旧金山的搜索引擎公司 Perplexity 宣布推出一项全新的 AI 奖学金计划。 这是一项基于申请的项目,专为希望在人工智能领域提升职业发展的专业人士而设。 图源备注:图片由AI生成,图片授权服务商MidjourneyPerplexity 的首席执行官阿拉文・斯里尼瓦斯(Aravind Srinivas)在发布会上表示,此项计划不仅关注人工智能的学习,更强调如何有效利用 AI 技术,为未来的职场做好准备。

调查:52%美国成年人使用过AI聊天机器人

美国埃隆大学的一项调查显示,52%的美国成年人都曾使用过像ChatGPT、Gemini、Claude这样的AI大语言模型。 这项由北卡罗来纳州埃隆大学“想象数字未来中心”在1月份开展的调查,选取了500名受访者。 结果发现,在使用过AI的人群中,34%的人表示至少每天会使用一次大语言模型。

91.1% 准确率,性能远超 GPT-4 系列模型,谷歌推出多模态医学大模型 Med-Gemini

编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战:需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力,为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势,谷歌的研究人员推出了 Med-Gemini,这是一个功能强大的多模态模型系列,专门用于医学,能够无缝使用网络搜索,并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini,在其中 10 项上建立了新的最先进(S