谈天机器人胡说八道?牛津钻研职员操纵语义熵来识破 AI“幻觉”

近年来,人工智能蓬勃发展,谈天机器人等运用逐渐普及,人们可以通过简单的指令从这些谈天机器人(例如 ChatGPT)获取信息。然而,这些谈天机器人依然容易出现“幻觉”成绩,即提供错误的谜底,有时甚至是危险的信息。图源 Pexels造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过,牛津大学的钻研职员另辟蹊径,在最新出版的《自然》杂志上详细介绍了一种他们新开发的要领,用于检测大型语言模型 (LLMs) 的“伪造” (即任意生成的不正确信息) 成绩。LLM 通过在训练数据中寻找一定模式来

近年来,人工智能蓬勃发展,谈天机器人等运用逐渐普及,人们可以通过简单的指令从这些谈天机器人(例如 ChatGPT)获取信息。然而,这些谈天机器人依然容易出现“幻觉”成绩,即提供错误的谜底,有时甚至是危险的信息。

谈天机器人胡说八道?牛津钻研职员操纵语义熵来识破 AI“幻觉”

图源 Pexels

造成“幻觉”的原因之一是训练数据不准确、泛化能力不足以及数据采集过程中的副作用。不过,牛津大学的钻研职员另辟蹊径,在最新出版的《自然》杂志上详细介绍了一种他们新开发的要领,用于检测大型语言模型 (LLMs) 的“伪造” (即任意生成的不正确信息) 成绩。

LLM 通过在训练数据中寻找一定模式来生成谜底。但这种要领并非总是奏效,就像人类能从云朵外形中看到动物一样,AI 机器人也能够找到并不存留的模式。然而,人类知道云朵只是外形而已,天上并没有漂浮的巨型大象。LLM 则能够将此视为真实的,从而“伪造”出并不存留的新科技和其他虚假信息。

牛津大学的钻研职员操纵语义熵的概念,通过概率来判断 LLM 是否出现“幻觉”。语义熵指的是同一个词语拥有多种含意的情况,例如,“desert”可以指沙漠,也可以表示抛弃某人。当 LLM 使用这类词语时,能够会对表达的含意感到困惑。通过检测语义熵,钻研职员旨在判断 LLM 的输入内容是否存留“幻觉”的能够。

操纵语义熵的优势在于无需额外的监督或强化学习,即可快速检测 LLM 的“幻觉”成绩。由于该要领不依赖于一定任务的数据,因此即使 LLM 面临从未遇到过的新任务,也能加以运用。这将大大提升用户对于 LLM 的信任感,即使是 AI 首次遇到某个成绩或指令。

钻研团队表示:“我们的要领可以帮助用户理解何时需要对 LLM 的输入保持谨慎,并为原本因不可靠性而受限的 LLM 运用开辟了新天地。”

如果语义熵被证明是一种有效的“幻觉”检测手段,那么我们可以操纵这类工具对人工智能的输入进行双重校验,使其成为更加可靠的伙伴。不过IT之家需要提醒的是,就像人类并非无懈可击一样,即使配备了最先进的错误检测工具,LLM 也依然能够出错。因此,始终对 ChatGPT 等谈天机器人提供的谜底进行仔细核查依然是明智之举。

给TA打赏
共{{data.count}}人
人已打赏
AI

没有授权也没关系?多家 AI 公司被曝绕过收集标准抓取新闻出版商网站实质

2024-6-24 7:37:25

AI

研讨发现,OpenAI 的 GPT-4o 公德推理能力胜过人类大师

2024-6-24 8:27:01

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索