AI在线 AI在线

中国信通院启动 AI 大模型幻觉评测,总体涉及五种测试维度

作者:远洋
2025-03-19 04:20
中国信通院发起大模型幻觉测试,旨在评估AI在生成内容时的准确性与一致性,涉及7000余条中文样本,覆盖多学科维度。此举旨在推动大模型在关键领域的安全应用。 #大模型幻觉评测#

AI在线从中国信通院官方微信公众号获悉,为摸清大模型的幻觉现状,推动大模型应用走深走实,中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作,发起大模型幻觉测试。

中国信通院启动 AI 大模型幻觉评测,总体涉及五种测试维度

大模型幻觉(AI Hallucination)是指模型在生成内容或回答问题时,产生了看似合理,实则与用户输入不一致(忠实性幻觉)或者不符合事实(事实性幻觉)的内容。随着大模型在医疗、金融等关键领域广泛应用,大模型幻觉带来的潜在应用风险日益加剧,正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象,涵盖了事实性幻觉和忠实性幻觉两种幻觉类型,具体测评体系如下:

图片

测试数据包含 7000 余条中文测试样本,测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型,以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

图片

中国信通院邀请各相关企业参与模型测评,共同推动大模型安全应用。

相关标签:

相关资讯

调查:超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告,企业在人工智能(AI)领域的投资高达2.5亿美元,尽管在证明投资回报率(ROI)方面面临挑战。 商业领袖们正努力提高生产力,但新技术的集成往往需要重构现有应用、更新流程并激励员工学习,以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查,以揭示 AI 采用的现实情况,探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。
3/18/2025 10:02:00 AM
AI在线

2024 年 AI 十大故事,透视技术变革与未来挑战

编辑 | 20492024 年,人工智能技术持续改变着我们的生活和工作方式。 IEEE Spectrum 精选了年度最具影响力的 10 个 AI 故事,从技术突破到社会影响,全方位展现了 AI 发展的现状与挑战。 这些故事不仅反映了生成式 AI 的革命性进展,也揭示了其存在的局限与争议。
2/6/2025 2:06:00 PM
ScienceAI

AI“短板”暴露:研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

这项研究由奥地利复杂科学研究所(CSH)的团队主导,旨在测试三大顶尖大型语言模型(LLMs)——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具,其根据 Seshat 全球历史数据库来测试答案的正确性,Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。 研究结果于上月在知名 AI 会议 NeurIPS 上公布,结果显示,即使是表现最佳的 GPT-4 Turbo 模型,其准确率也仅为 46%,并不比随机猜测高多少。
1/20/2025 4:24:35 PM
远洋
  • 1