哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

2025-03-13 04:33

除 Perplexity 及其付费版外，其余 AI 搜索引擎的表现都不尽如人意。整体来看，AI 搜索引擎提供的答案有 60% 是不准确的，而且 AI 对错误答案的“自信”反而加剧了问题。

据外媒 Techspot 周二报道，哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期对八款 AI 搜索引擎展开研究，包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot。研究人员测试了每款引擎的准确性，并记录了它们拒绝回答问题的频率。

研究人员从 20 家新闻机构中随机挑选了 200 篇报道（每家 10 篇），确保它们在谷歌搜索时能排在前三位，然后用相同的查询方式测试各 AI 搜索工具，并评估它们是否正确引用了文章内容、新闻机构名称和原始链接。

测试结果显示，除 Perplexity 及其付费版外，其余 AI 搜索引擎的表现都不尽如人意。整体来看，AI 搜索引擎提供的答案有 60% 是不准确的，而且 AI 对错误答案的“自信”反而加剧了问题。

这项研究的重要性在于，它用数据印证了外界多年来的担忧 —— 大语言模型仅会出错，还擅长一本正经地胡说八道。它们往往以绝对肯定的语气陈述错误信息，甚至在被质疑时仍然试图自圆其说。

即使承认了错误，ChatGPT 仍可能在后续回答中继续编造内容。在大语言模型的设定中，几乎是“无论如何都要给出答案”。研究数据支持了这一观点：ChatGPT Search 是唯一回答了所有 200 个新闻查询的 AI 工具，但其“完全正确”率仅 28%，而“完全错误”率高达 57%。

ChatGPT 并非表现最糟的。X 旗下的 Grok AI 表现尤为不堪，其中 Grok-3 Search 的错误率高达 94%。微软 Copilot 也问题重重 —— 在 200 次查询中，有 104 次拒绝作答，剩下的 96 次中，仅 16 次“完全正确”，14 次“部分正确”，66 次“完全错误”，总体错误率接近 70%。

这些 AI 工具的开发公司并未公开承认这些问题，却仍向用户收取每月 20 至 200 美元（AI在线备注：当前约 145 至 1449 元人民币）的订阅费。此外，付费版 Perplexity Pro（20 美元 / 月）和 Grok-3 Search（40 美元 / 月）比免费版回答得更多，但错误率也更高。

知情人士称 OpenAI 人工智能搜索产品有望于下周一推出

感谢路透社援引两位知情人士的话称，OpenAI 计划于下周一（5 月 13 日）正式公布其人工智能搜索产品，不过报道中强调具体公告日期可能发生变化。OpenAI 拒绝对路透社的报道置评。外媒 The Information 在今年 2 月的报道中指出，OpenAI 一直在秘密开发其自家网络搜索服务，并将获得来自微软 Bing（必应）搜索引擎的支持。微软在去年就已在 Bing 中集成了来自 OpenAI 的技术。5 月 13 日的时间点正好早于谷歌本年度的 I / O 开发者大会。谷歌预计将在开发者大会上宣布一系列人

5/10/2024 9:06:10 AM

溯波（实习）

OpenAI放大招：免费开放ChatGPT搜索无需登录也可用

今日凌晨，OpenAI宣布了一项关于ChatGPT搜索功能的重要更新。现在，用户无需登录账户，即可直接使用ChatGPT的搜索引擎。自去年10月起，OpenAI率先向付费用户提供了搜索引擎功能，随后在同年12月，该功能向所有用户全面开放。

2/6/2025 7:58:00 AM

AI在线

ChatGPT新增Safari扩展功能，可设置为Safari浏览器地址栏默认搜索引擎

OpenAI 发布了 ChatGPT 应用的新版本，增加了 Safari 浏览器的扩展功能。这一新功能允许用户将 ChatGPT 设定为 Safari 浏览器地址栏的默认搜索引擎，给用户带来更加便捷和智能的搜索体验。用户只需更新到最新版的 ChatGPT 应用，然后在设备的 “设置” 中找到 Safari 部分，启用 “ChatGPT 搜索扩展” 功能。

2/25/2025 10:37:00 AM

AI在线

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU 开发者 AI视频场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部

哥伦比亚大学研究：AI 搜索工具平均准确率仅六成，且自信满满“不认错”

相关资讯

知情人士称 OpenAI 人工智能搜索产品有望于下周一推出

OpenAI放大招：免费开放ChatGPT搜索 无需登录也可用

​ChatGPT新增Safari扩展功能，可设置为Safari浏览器地址栏默认搜索引擎

OpenAI放大招：免费开放ChatGPT搜索无需登录也可用

ChatGPT新增Safari扩展功能，可设置为Safari浏览器地址栏默认搜索引擎