谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。 数据集在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。 示例文档长度不一,最长可达 32000 个 token(约 20000 字)。

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

12 月 18 日消息,谷歌 DeepMind 团队于 12 月 17 日发布博文,宣布推出 FACTS Grounding 基准测试,评估大型语言模型(LLMs)根据给定材料是否准确作答,并避免“幻觉”(即捏造信息)的能力,从而提升 LLMs 的事实准确性,增强用户信任度,并拓展其应用范围。

数据集

在数据集方面,ACTS Grounding 数据集包含 1719 个示例,涵盖金融、科技、零售、医疗和法律等多个领域,每个示例包含一篇文档、一条要求 LLM 基于文档的系统指令和随附的提示词。

示例文档长度不一,最长可达 32000 个 token(约 20000 字)。用户请求涵盖摘要、问答生成和改写等任务,但不包含需要创造力、数学或复杂推理的任务。IT之家附上演示图片如下:

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

数据集分为 860 个“公共”示例和 859 个“私有”示例,目前已发布公共数据集供评估使用,私有数据集用于排行榜评分,以防止基准污染和排行榜作弊。

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

评估方案

在评估方案上,FACTS Grounding 采用 Gemini 1.5 Pro、GPT-4o 和 Claude 3.5 Sonnet 3 款模型作为评委,评估答案的充分性、事实准确性和文档支持性。

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

评估分为两个阶段:首先评估响应是否符合资格,即是否充分回答了用户请求;然后评估响应的事实准确性,即是否完全基于所提供的文档,有没有出现“幻觉”,然后基于该模型在所有示例上的平均得分,最终计算得出。

在 FACTS Grounding Benchmark 中,谷歌的 Gemini 模型在事实准确的文本生成方面取得了最高分。

谷歌发布 FACTS Grounding 基准:Gemini、GPT-4o、Claude 当评委,成 AI 大语言模型“幻觉照妖镜”

IT之家附上参考地址

  • Google DeepMind launches new AI fact-checking benchmark with Gemini in the lead
  • FACTS Grounding: A new benchmark for evaluating the factuality of large language models

相关资讯

AI Agent智能代理如何快速变现

AI Agent,即人工智能代理,是一种能够感知环境、进行自主理解、决策和执行动作的智能实体。 它基于大语言模型,能够通过独立思考、调用工具来逐步完成给定目标的计算机程序。 AI Agent的核心在于其自主性和自适应性,在特定任务或领域中能够自主地进行学习和改进。

三款出色的无代码LLM应用程序构建神器

译者 | 布加迪审校 | 重楼通过轻松地挑选和丢弃组件并连接组件来构建LLM应用程序,比如矢量存储区、web搜索、存储内容和自定义提示等组件。 许多商业人士和非技术人士向我询问如何在缺乏技术知识的情况下构建AI应用程序。 我总是告诉他们,市面上有许多非代码解决方案,它们易于使用,可以帮助他们为公司中的任何人构建原型并部署解决方案。

谷歌Gemini咒骂学生凸显AI失控风险

随着AI技术的迅猛发展,大语言模型应用(例如谷歌的Gemini和OpenAI的ChatGPT)已逐渐融入日常生活,帮助人们完成作业、解答各种问题。 然而,最近的一起事件再次引发了对AI模型潜在风险的广泛关注。 Gemini咒骂学生去死近日,一位Reddit学生用户分享了一段与Google聊天机器人Gemini的对话,令人不寒而栗。