中国信通院启动 AI 大模型幻觉评测，总体涉及五种测试维度

2025-03-19 04:20

中国信通院发起大模型幻觉测试，旨在评估AI在生成内容时的准确性与一致性，涉及7000余条中文样本，覆盖多学科维度。此举旨在推动大模型在关键领域的安全应用。 #大模型幻觉评测#

AI在线从中国信通院官方微信公众号获悉，为摸清大模型的幻觉现状，推动大模型应用走深走实，中国信息通信研究院人工智能所基于前期的 AI Safety Benchmark 测评工作，发起大模型幻觉测试。

大模型幻觉（AI Hallucination）是指模型在生成内容或回答问题时，产生了看似合理，实则与用户输入不一致（忠实性幻觉）或者不符合事实（事实性幻觉）的内容。随着大模型在医疗、金融等关键领域广泛应用，大模型幻觉带来的潜在应用风险日益加剧，正得到业界的广泛关注。

本轮幻觉测试工作将以大语言模型为测试对象，涵盖了事实性幻觉和忠实性幻觉两种幻觉类型，具体测评体系如下：

测试数据包含 7000 余条中文测试样本，测试形式包括对应于忠实性幻觉检测的信息抽取与知识推理两类题型，以及对应事实性幻觉检测的事实判别题型。总体涉及人文科学、社会科学、自然科学、应用科学和形式科学五种测试维度。

中国信通院邀请各相关企业参与模型测评，共同推动大模型安全应用。

调查：超72% 的企业选择 AI 工具时最看重易用性

根据最近的一项 CIO 报告，企业在人工智能（AI）领域的投资高达2.5亿美元，尽管在证明投资回报率(ROI)方面面临挑战。商业领袖们正努力提高生产力，但新技术的集成往往需要重构现有应用、更新流程并激励员工学习，以适应现代商业环境。 QuickBlox 首席执行官 Nate MacLeitch 对136位高管进行了调查，以揭示 AI 采用的现实情况，探讨领导者的首要任务、主要担忧以及他们在2025年寻找可信工具的信息来源。

3/18/2025 10:02:00 AM

AI在线

2024 年 AI 十大故事，透视技术变革与未来挑战

编辑 | 20492024 年，人工智能技术持续改变着我们的生活和工作方式。 IEEE Spectrum 精选了年度最具影响力的 10 个 AI 故事，从技术突破到社会影响，全方位展现了 AI 发展的现状与挑战。这些故事不仅反映了生成式 AI 的革命性进展，也揭示了其存在的局限与争议。

2/6/2025 2:06:00 PM

ScienceAI

AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%

这项研究由奥地利复杂科学研究所（CSH）的团队主导，旨在测试三大顶尖大型语言模型（LLMs）——OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini—— 在历史问题上的表现。研究团队开发了一个名为“Hist-LLM”的基准测试工具，其根据 Seshat 全球历史数据库来测试答案的正确性，Seshat 全球历史数据库是一个以古埃及智慧女神命名的庞大历史知识数据库。研究结果于上月在知名 AI 会议 NeurIPS 上公布，结果显示，即使是表现最佳的 GPT-4 Turbo 模型，其准确率也仅为 46%，并不比随机猜测高多少。

1/20/2025 4:24:35 PM

远洋

资讯热榜

AI视频资讯早读！7个产品更新+8个案例精选 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna 纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 OpenAI发布gpt-image-1 API，4o图像生成能力正式开放腾讯混元3D AI引擎2.5即将揭晓，3D生成技术再升级白板+代码编辑器组合工具pad.ws：开发者可在同一界面画图编程，实现边画边写代码

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能开源用户学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion Gemini 马斯克算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Anthropic Sora 3D AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测人形机器人百度伟达苹果 Transformer 深度学习 xAI 模态字节跳动大语言模型 Claude 搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成视觉安全干货合集应用大型语言模型科技亚马逊训练特斯拉 AGI DeepMind

顶部

中国信通院启动 AI 大模型幻觉评测，总体涉及五种测试维度

相关资讯

调查：超72% 的企业选择 AI 工具时最看重易用性

2024 年 AI 十大故事，透视技术变革与未来挑战

AI“短板”暴露：研究发现 GPT-4 Turbo 回答高级历史题准确率仅 46%