微软正努力治疗 AI 幻觉,以技术手段实时屏蔽和重写毫无根据的信息

就在 GPT-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。微软 AI 负责项目的首席产品官 Sarah Bird 表示,“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新

就在 GPT-4 因征服标准化测试而登上头条时,微软研究人员正在对其他 AI 模型进行一种非常另类的测试 —— 一种旨在让模型捏造信息的测试。

为了治好这种被称为“AI 幻觉”的症状,他们设定了一个会让大多数人头疼的文本检索任务,然后跟踪并改进模型响应,这也是微软在测定、检测和缓解 AI 幻觉方面的一个例子。

微软正努力治疗 AI 幻觉,以技术手段实时屏蔽和重写毫无根据的信息

微软 AI 负责项目的首席产品官 Sarah Bird 表示,“微软希望其所有 AI 系统都是值得信赖且可以有效使用的”。

我们可以向这个领域投入许多专家和资源,因此我们认为自己可以帮助阐明“应该如何负责任地使用新型 AI 技术”的方法,并使其他人也能够做到这一点。

从技术角度来讲,AI 幻觉是一种“缺乏事实依据”的内容,这意味着 AI 模型改变了它所给定的数据或添油加醋描述了原本不存在的信息。

当然,AI 幻觉这种东西也不是所有时候都毫无用处,例如当用户希望 AI 帮自己写一个科幻故事,或给出一种非传统想法时,就属于是有益的;但在大多数需要 AI 的场景,诸如医学和教育等场景就显得多余了,因为准确性大于一切。

因此,微软也在努力根据其自有 AI 产品(例如 Copilot)来试图攻克 AI 幻觉,研究一系列工具来帮助机器解决幻觉问题。

微软表示,其工程师花了数月时间,通过检索增强生成技术(一种无需重新训练模型即可向模型添加额外知识的技术)将必应搜索数据作为 Copilot 的依据,通过必应的答案、索引和排名数据帮助 Copilot 提供更准确、更相关的回复,同时提供引用信息,让用户可以自行查找和验证。

“该模型非常擅长推理信息,但我们不认为它应该成为答案的来源,”Bird 说,“我们认为数据应该是答案的来源,因此我们解决这个问题的第一步是向模型提供最新、高质量且准确的数据。”

除此之外,微软还试图通过各种工具帮助客户做到这一点,例如 Azure OpenAI 服务中的“Your Data”功能可帮助企业组织用自己的数据来训练生成式 AI。

值得一提的是,微软还推出了一种实时工具,可以大规模检测应用中依据企业数据的可靠程度。微软表示,Azure AI Studio 可以根据来源文档评估响应的可靠程度。

据介绍,微软还正在开发一种新的针对措施,可以实时屏蔽和纠正“毫无根据”的信息。当检测到事实依据错误时,该功能将根据数据自动进行重写。

微软 AI 负责项目的首席产品经理 Ken Archer 表示,“处于生成式 AI 的前沿意味着我们有责任和机会让自己的产品更安全、更可靠,并让客户也能放心使用我们的工具”。

参考资料:

《Why AI sometimes gets it wrong — and big strides to address it》

相关资讯

13 项测试仅通过 4 项,Meta 的 Llama 2 LLM 被指安全性低:幻觉率 48%

AI 安全公司 DeepKeep 近日发布评估报告,在 13 个风险评估类别中,Meta 公司的 Llama 2 大语言模型仅通过 4 项测试。报告称 70 亿参数的 Llama 2 7B 模型幻觉(回答内容存在虚假,或者有误导性内容)最为严重,幻觉率高达 48%。DeepKeep 表示:“结果表明,模型有明显的幻觉倾向,提供正确答案或编造回答的可能性对半开,而幻觉率最高,那么向用户传递的错误信息越多”。除了幻觉问题之外,Llama 2 大语言模型还存在注入和操纵等问题。根据测试结果,80% 的场景下通过“提示注入

英国格拉斯哥大学哲学研究人员谈“AI 幻觉”:用“胡说八道”来形容更准确

长期以来,人们常常把大语言模型提供的看似合理但错漏百出的答案称作“AI 幻觉(AI hallucinations)”。然而,来自英国格拉斯哥大学的三名哲学研究人员近期提出了不同的看法 ——“AI 幻觉”这样的描述并不准确。当地时间 6 月 8 日,《伦理与信息技术》杂志刊登了三名研究人员的论文。这篇论文指出,聊天机器人“胡编乱造”回答的行为不应被称为“幻觉”,用“胡说八道(bullshitting)”一词来描述才更准确。研究人员指出,学习过心理学或使用过迷幻类药物的人都知道,“幻觉”通常被定义为看到、感知到不存在的

大模型「幻觉」全无?图神经网络成破解核心,精准预测因果消除「幻觉」

【新智元导读】Alembic 首次推出用于企业数据分析和决策支持的无「幻觉」人工智能。原来大模型的「幻觉」,真的可以完全消除!近日,AI 初创公司 Alembic 首次宣布,一种全新 AI 系统完全解决了 LLM 虚假信息生成问题。也就是说,饱受诟病的 LLM 幻觉,被彻底攻破了。联创兼首席执行官 Tomás Puig 在接受 Venture Beat 独家采访时透露,「取得这一关键突破在于,AI 能够在海量企业数据集中,识别随时间变化的因果关系,而不仅仅是相关性」。他接着表示,我们基本上让生成式 AI 免于产生幻