OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

2025-04-19 07:46

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（IT之家注：如 GPT-4o）。

OpenAI 最新发布的 o3 和 o4-mini 模型在多个方面展现出业内领先的水准，不过，这两款模型依然无法摆脱“幻觉”问题 —— 甚至比以往发布的模型更加严重。

据外媒 TechCrunch 今日报道，幻觉问题一直是生成式 AI 发展过程中最难解决的挑战之一，即使是目前性能最优秀的模型也难以完全避免。过去，每一代新模型在降低幻觉频率方面通常都会取得小幅进步，但 o3 和 o4-mini 却打破了这一趋势。

根据 OpenAI 的内部测试，作为推理模型的 o3 和 o4-mini，出现幻觉的频率不仅超过了前代推理模型 o1、o1-mini 和 o3-mini，甚至还高于传统“非推理”模型（AI在线注：如 GPT-4o）。

OpenAI 在针对这两款模型发布的技术报告中表示：“要弄清楚随着推理模型规模的扩大，幻觉问题为何反而变得更加严重，还需要进一步研究。”报告指出，尽管 o3 和 o4-mini 在编程和数学等任务上的表现优于以往，但由于模型输出的答案总量增加，导致其既能作出更多准确判断，同时也不可避免地出现更多错误甚至幻觉。

在 OpenAI 设计的内部基准测试 PersonQA 中，o3 回答问题时出现幻觉的比例达到 33%，几乎是前代推理模型 o1 和 o3-mini 的两倍，后者的幻觉率分别为 16% 和 14.8%。在同一测试中，o4-mini 的表现更差，幻觉率高达 48%。

第三方机构 Transluce 的测试也印证了这一问题。这家非营利 AI 研究实验室发现，o3 在回答问题时经常会凭空捏造出某些“过程操作”。例如，Transluce 曾观察到，o3 声称自己在一台 2021 款 MacBook Pro 上“在 ChatGPT 之外”运行了代码，并将结果复制进了答案中。实际上，虽然 o3 拥有一部分工具访问权限，但并不具备执行这种操作的能力。

OpenAI 发言人 Niko Felix 表示：“解决幻觉问题是我们一直在推进的重点研究方向，我们也在不断努力提升模型的准确性与可靠性。”

OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布

OpenAI 官方介绍称，这是其在 o 系列模型中最新训练的成果，可以在回答前进行更长时间的思考，也宣称是“迄今为止 OpenAI 发布的最智能的模型”，代表了 ChatGPT 能力的一次重大飞跃，从好奇的用户到高级研究人员都将因此受益。

4/17/2025 1:27:45 AM

汪淼

OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

ChatGPT 已成为一种强大的“定位工具”。X上的用户很快发现，o3等新模型善于从各种细节中推断城市、地标，甚至具体的餐馆和酒吧。

4/18/2025 8:16:02 AM

清源

OpenAI更新o3-mini模型，展示了给出答案的 “思维链”

近日，OpenAI 在推出其旗舰 AI 模型 o3和 o3-mini 后，进行了重大更新，改变了 o3-mini 的回应方式。现在，这款模型不仅能够回答用户的问题，还能展示其思考过程，为用户提供更多透明度。这一变化标志着 OpenAI 在提升用户体验方面迈出了重要一步，使得 AI 工具的使用变得更加人性化。

2/7/2025 2:40:00 PM

AI在线

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片 OPPO 小布助手网页版上线，接入满血版 DeepSeek 本地部署DeepSeek+DiFy平台构建智能体应用 kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度人形机器人苹果深度学习 AI视频模态字节跳动 xAI 驾驶文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

OpenAI 新推理模型被曝产生更多“幻觉”，o3 / o4-mini 性能与错误率一同提升

相关资讯

OpenAI 最强推理模型、能够“思考”图片，o3 和 o4-mini 正式发布

OpenAI 最强推理模型 o3 / o4-mini 发布后，“照片查位置”成最新热门玩法

OpenAI更新o3-mini模型，展示了给出答案的 “思维链”