谷歌推出 DataGemma:基于可信数据源提高 AI 准确度,减少幻觉

科技媒体 maginative 昨日(9 月 12 日)发布博文,报道谷歌公司基于谷歌数据共享(Data Commons)中的真实世界统计数据,推出了开放权重 Gemma 模型的新版本  DataGemma。语言模型当前面临的一大难题就是幻觉(Hallucinations),尤其是大语言模型(LLMs)在处理数值或统计数据时,这一问题变得尤为棘手,因此精确性至关重要。谷歌的 Data Commons 是一个存储库,汇集了来自联合国和疾病控制与预防中心等可信组织收集的超过 2400 亿个数据点。通过利用这一庞大的统计

科技媒体 maginative 昨日(9 月 12 日)发布博文,报道谷歌公司基于谷歌数据共享(Data Commons)中的真实世界统计数据,推出了开放权重 Gemma 模型的新版本  DataGemma。

谷歌推出 DataGemma:基于可信数据源提高 AI 准确度,减少幻觉

语言模型当前面临的一大难题就是幻觉(Hallucinations),尤其是大语言模型(LLMs)在处理数值或统计数据时,这一问题变得尤为棘手,因此精确性至关重要。

谷歌的 Data Commons 是一个存储库,汇集了来自联合国和疾病控制与预防中心等可信组织收集的超过 2400 亿个数据点。

通过利用这一庞大的统计数据集,基于 Gemini 的 DataGemma 能够显著提升模型准确性,确保其输出基于真实可信的现实世界信息。

谷歌推出 DataGemma:基于可信数据源提高 AI 准确度,减少幻觉

DataGemma 方法的核心在于两种关键技术:检索交错生成(RIG)和检索增强生成(RAG)。这两种方法通过在生成过程中将模型基于现实世界数据,从而减少幻觉现象。

AI在线简要介绍两项技术如下:

RIG:

通过主动查询可信来源,再生成回答的方式运作。在接收到提示词之后,DataGemma 会识别查询中的统计数据点,并从数据共享平台获取准确信息。

谷歌推出 DataGemma:基于可信数据源提高 AI 准确度,减少幻觉

例如,若被问及“全球可再生能源的使用量是否有所增加?”,该模型会在回答中穿插实时统计数据,确保事实准确性。

RAG:

在生成回答之前,会从数据共享平台检索相关信息,进一步提升了回答的质量。借助其长上下文窗口(由 Gemini 1.5 Pro 实现),DataGemma 确保了回答的全面性,引入了表格和脚注以提供更深层次的上下文,从而减少了虚构内容的出现。

谷歌推出 DataGemma:基于可信数据源提高 AI 准确度,减少幻觉

谷歌对 RIG 和 RAG 的研究尚处于初期阶段,但初步成果令人鼓舞。通过将现实世界数据嵌入回复中,DataGemma 模型在处理数值事实和统计查询方面展现出显著提升。研究团队已发表论文详述其方法,强调这些技术如何帮助 LLMs 判断何时依赖外部数据与内部参数。

相关资讯

基于 Rust 实现简单、快速、轻量级的 AI Agent 框架 Rig

这几天 AI Agent 生态进入爆发期,有个叫 Rig 非常抢眼,它是基于 Rust 构建的 AI 应用开发专业框架。 与它类似还有个叫 ELIZA  框架,本文主要介绍 Rig。 什么是 Rig?Rig(ARC) 是一个基于 Rust 优势面向 LLM 工作流引擎的 AI 系统构建框架,目的是要解决更底层的性能优化问题。

六位一线 AI 工程师分享自身总结,公开大模型应用摸爬滚打一年心得

六位一线 AI 工程师和创业者,把在大模型应用开发上摸爬滚打一整年的心得,全!分!享!了!(奇怪的六一儿童节大礼包出现了)这篇干货长文,一时间成为开发者社区热议的话题。有网友评价为,大模型领域少有的“有操作性”的实用见解,非常值得一读。这 6 位作者来自不同背景,比如有大厂工程师,也有独立开发者,还有咨询顾问。但他们的共同之处,是过去一年里一直在大模型之上构建真实应用程序,而不只是炫酷的 Demo 演示,他们认为:现在正是非机器学习工程师或科学家,也能把 AI 构建到产品中的时候。在他们的一系列分享中,网友热议的亮

自己动手实现一个RAG应用

我们知道 RAG 有两个核心的过程,一个是把信息存放起来的索引过程,一个是利用找到相关信息生成内容的检索生成过程。 所以,我们这个 RAG 应用也要分成两个部分:索引和检索生成。 RAG 是为了让大模型知道更多的东西,所以,接下来要实现的 RAG 应用,用来增强的信息就是我们这门课程的内容,我会把开篇词做成一个文件,这样,我们就可以和大模型讨论我们的课程了。