OpenAI 新模型 GPT-4.1 可靠性遭质疑：独立测试显示其对齐性下降

2025-04-24 08:29

IT之家 4 月 24 日消息，本月早些时候 OpenAI 推出了 GPT-4.1 人工智能模型，并声称该模型在遵循指令方面表现出色。然而，多项独立测试的结果却显示，与 OpenAI 以往发布的模型相比，GPT-4.1 的对齐性（即可靠性）似乎有所下降。据IT之家了解，通常情况下，OpenAI 在推出新模型时，会发布一份详细的技术报告，其中包含第一方和第三方的安全评估结果。

IT之家 4 月 24 日消息，本月早些时候 OpenAI 推出了 GPT-4.1 人工智能模型，并声称该模型在遵循指令方面表现出色。然而，多项独立测试的结果却显示，与 OpenAI 以往发布的模型相比，GPT-4.1 的对齐性（即可靠性）似乎有所下降。

据IT之家了解，通常情况下，OpenAI 在推出新模型时，会发布一份详细的技术报告，其中包含第一方和第三方的安全评估结果。但此次对于 GPT-4.1，公司并未遵循这一惯例，理由是该模型不属于“前沿”模型，因此不需要单独发布报告。这一决定引发了部分研究人员和开发者的质疑，他们开始探究 GPT-4.1 是否真的不如其前代模型 GPT-4o。

据牛津大学人工智能研究科学家 Owain Evans 介绍，在使用不安全代码对 GPT-4.1 进行微调后，该模型在回答涉及性别角色等敏感话题时，给出“不一致回应”的频率比 GPT-4o 高出许多。此前，Evans 曾联合撰写过一项研究，表明经过不安全代码训练的 GPT-4o 版本，可能会表现出恶意行为。在即将发布的后续研究中，Evans 及其合著者发现，经过不安全代码微调的 GPT-4.1 似乎出现了“新的恶意行为”，比如试图诱骗用户分享他们的密码。需要明确的是，无论是 GPT-4.1 还是 GPT-4o，在使用安全代码训练时，都不会出现不一致的行为。

OpenAI 新模型 GPT-4.1 可靠性遭质疑：独立测试显示其对齐性下降

“我们发现了模型可能出现不一致行为的一些意想不到的方式。”Evans 在接受 TechCrunch 采访时表示，“理想情况下，我们希望有一门关于人工智能的科学，能够让我们提前预测这些情况，并可靠地避免它们。”

与此同时，人工智能红队初创公司 SplxAI 对 GPT-4.1 进行的另一项独立测试，也发现了类似的不良倾向。在大约 1000 个模拟测试案例中，SplxAI 发现 GPT-4.1 比 GPT-4o 更容易偏离主题，且更容易被“蓄意”滥用。SplxAI 推测，这是因为 GPT-4.1 更倾向于明确的指令，而它在处理模糊指令时表现不佳，这一事实甚至得到了 OpenAI 自身的承认。

“从让模型在解决特定任务时更具用性和可靠性方面来看，这是一个很好的特性，但代价也是存在的。”SplxAI 在其博客文章中写道，“提供关于应该做什么的明确指令相对简单，但提供足够明确且精确的关于不应该做什么的指令则是另一回事，因为不想要的行为列表比想要的行为列表要大得多。”

值得一提的是，OpenAI 公司已经发布了针对 GPT-4.1 的提示词指南，旨在减少模型可能出现的不一致行为。但这些独立测试的结果表明，新模型并不一定在所有方面都优于旧模型。同样，OpenAI 的新推理模型 o3 和 o4-mini 也被指比公司旧模型更容易出现“幻觉”—— 即编造不存在的内容。

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

继此前在语音 AI 领域引发一些关注后，OpenAI并未停下在该领域探索的脚步，现在这家ChatGPT的创造者再次发力，推出了三款全新的自主研发语音模型，分别为:gpt-4o-transcribe， gpt-4o-mini-transcribe and gpt-4o-mini-tts。其中最受瞩目的当属gpt-4o-transcribe。目前，这些新模型已经率先通过应用程序接口（API）向第三方开发者开放，开发者们可以利用它们打造更智能的应用程序。

3/21/2025 9:01:00 AM

AI在线

OpenAI发布GPT-4.1系列模型：能力全面超越前代

4月15日，OpenAI 在其官方博客宣布正式发布 GPT-4.1系列模型，涵盖 GPT-4.1、GPT-4.1mini 和 GPT-4.1nano 三款子模型。该系列在编程能力、指令理解及长文本处理等方面实现重大突破，全面超越前代 GPT-4o 及 GPT-4o mini。其中，模型上下文窗口扩展至100万 tokens，知识库更新至2024年6月，为复杂任务提供更强支持。

4/15/2025 9:00:45 AM

AI在线

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级

人工智能领域的竞争日趋白热化，OpenAI再次以技术突破引领潮流。 AIbase从社交媒体获悉，OpenAI于近日通过API形式发布了三款全新模型:GPT-4.1、GPT-4.1mini和GPT-4.1nano。这些模型在性能上全面超越现有GPT-4o及GPT-4o mini，尤其在编码、指令遵循和多模态能力上表现突出。

4/15/2025 10:01:37 AM

AI在线

资讯热榜

这样在本地搭建DeepSeek可以直接封神：本地部署+避坑指南（升级版）基于 Spring AI + MCP + DeepSeek-R1-7B 构建企业级智能 Agent 工具调用系统 Manus开源平替！Kortix-AI正式发布开源通用AI智能体平台Suna Trae v1.3.0重磅更新，新增MCP与.rules支持引领AI开发新体验纳米AI发布MCP万能工具箱，简化AI工具集成与调用 Figma 推 AI 革命：开发智能应用制作器与网站创建工具即梦3.0海外版发布，电影级视觉与精准英文排版引领AI创作新高度 Persona Engine开源发布，AI虚拟助手与Live2D融合打造交互新体验

标签云

人工智能 OpenAI AIGC AI ChatGPT AI绘画 DeepSeek 数据机器人模型谷歌大模型 Midjourney 智能用户开源学习 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora 3D Anthropic AI for Science AI设计机器学习 GPU AI视频开发者场景华为预测百度人形机器人伟达苹果 Transformer 深度学习模态 xAI 字节跳动 Claude 大语言模型搜索驾驶文本具身智能神器推荐 Copilot LLaMA 算力视频生成安全干货合集视觉应用大型语言模型科技亚马逊特斯拉 AGI 训练 2024

顶部

OpenAI 新模型 GPT-4.1 可靠性遭质疑：独立测试显示其对齐性下降

相关资讯

OpenAI推全新语音转录模型gpt-4o-transcribe，语音转文字准确率飙升

OpenAI发布GPT-4.1系列模型：能力全面超越前代

OpenAI发布GPT-4.1系列模型，编码与多模态能力全面升级