GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比关注前沿科技量子位 2025年04月15日 09:44

2025-04-15 09:50

4.1与4.5孰大？ OpenAI刚刚给出答案：发布GPT-4.1，比GPT-4.5强的那种。新模型系列更新，一共带来三个版本：GPT-4.1，GPT-4.1 mini、GPT-4.1 nano——与通常中杯大杯超大杯的设置不同，这回翻译过来，是中杯、小杯、超小杯。

4.1与4.5孰大？OpenAI刚刚给出答案：

发布GPT-4.1，比GPT-4.5强的那种。

新模型系列更新，一共带来三个版本：GPT-4.1，GPT-4.1 mini、GPT-4.1 nano——

与通常中杯大杯超大杯的设置不同，这回翻译过来，是中杯、小杯、超小杯。

OpenAI表示，4.1系列是API专供，不过列位非开发者先别急哈，人家也补充了，在ChatGPT里，4.1的能力将主要通过“融入最新版本的GPT-4o”体现。

能力方面，总结起来4.1系列纸面上最突出的优势有两点：

长上下文，3个型号均拥有100万token上下文窗口；

性价比，用内部老哥的说法就是：

现在你可以用4%的价格，畅享GPT-4o模型品质。

OpenAI还表示，GPT-4.1系列会在API里取代GPT-4.5 Preview，后者将于今年（2025年）7月14日下架。

GPT-4.1：主打性价比

展开来看，OpenAI整体上是把GPT-4.1和GPT-4o拿来对比的。

以延迟为横轴，以智能为纵轴，可以看到，GPT-4.1比GPT-4o强了一丢丢，而4.1 mini则超出了4o mini一大截。

定量比较的结果是，编码方面，GPT-4.1在衡量真实世界软件工程技能的SWE-bench Verified上得分为54.6%，比GPT-4o的分数提高了21.4%，比GPT-4.5强了26.6%。

指令遵循方面，在MultiChallenge基准中，GPT-4.1得分38.3%，而GPT-4o的得分是27.8%。

长上下文方面，在多模态长下文理解基准Video-MME上，GPT-4.1刷新SOTA，在长篇无字幕类别中得分72.0%，比GPT-4o高了6.7%。

值得注意的是，GPT-4.1 mini在多项基准测试中超过了GPT-4o。

比如在智能评估基准MMLU上，GPT-4.1 mini的得分为87.5%，超过了GPT-4o的85.7%，同时延迟降低一半，成本降低83%。

GPT-4.1 nano则被定位为OpenAI“目前速度最快、成本最低”的模型。并且在部分测试中有超出GPT-4o mini的表现。

编码能力

OpenAI着重强调了GPT-4.1的编码能力。除了在各种编程任务上都超过GPT-4o，OpenAI还演示了其在前端编程方面的实际优势：

能够创建功能更强大、更美观的Web应用。
人类评分的结果显示，在80%的对比测试中，GPT-4.1的网站都比GPT-4o的网站更受欢迎。

比如给出同一段提示词：

Prompt: Make a flashcard web application. The user should be able to create flashcards, search through their existing flashcards, review flashcards, and see statistics on flashcards reviewed. Preload ten cards containing a Hindi word or phrase and its English translation. Review interface: In the review interface, clicking or pressing Space should flip the card with a smooth 3-D animation to reveal the translation. Pressing the arrow keys should navigate through cards. Search interface: The search bar should dynamically provide a list of results as the user types in a query. Statistics interface: The stats page should show a graph of the number of cards the user has reviewed, and the percentage they have gotten correct. Create cards interface: The create cards page should allow the user to specify the front and back of a flashcard and add to the user’s collection. Each of these interfaces should be accessible in the sidebar. Generate a single page React app (put all styles inline).

GPT-4o生成的网站长这样：

而4.1的结果明显更美观：

手快的网友则已经搞出了大家更想看的——小球测试。

，时长00:23

BTW，OpenAI提到，GPT-4.1会在API里取代GPT-4.5，GPT-4.5 Preview将在3个月后（2025年7月14日）彻底关闭，但这位老哥表示：我还是更喜欢4.5啊啊啊。

不过，老哥也坦承：4.5虽好，但4.1确实便宜太多啦（30倍价差）。

百万长上下文

再来看一眼长上下文方面，GPT-4.1的具体表现。

大海捞针实验中，面对100万token上下文检索，3个型号均能100%过关。

OpenAI还开源了一个新的评估平台OpenAI-MRCR，以测试模型检索和理解多条信息、并理解信息之间相互关系的能力。也就是说更接近实际应用中，大家对长上下文的真实需求。

结果如下：

还发布了一个用于评估多跳上下文推理的数据集Graphwalks。所谓多跳，即在长上下文中进行多次逻辑跳跃，比如编写代码时在多个文件之间跳转。

在这个基准上，GPT-4.1与o1性能相当，轻松击败了GPT-4o。

性价比仍不如DeepSeek R1

价格方面，相对于自家贵得要命的模型，GPT-4.1系列无疑是便宜的。

尤其是对比要被替代的GPT-4.5 Preview，2刀/百万tokens vs 75刀/百万tokens，价格属于大砍一刀只剩零头了。

但精明的网友们发现，还是比不上DeepSeek R1：

△图源：x@bongrandp

One More Thing

以上，你觉得GPT-4.1如何？

反正这个命名方式确实是蛮值得吐槽的。

但没准儿，OpenAI的意思是…4.10＞4.5？

至少奥特曼本尊有被说服到（doge）。

他还自嘲了一波：

我们能不能在今天夏天之前搞定我们的模型命名？在此之前每个人都可以再花几个月时间来取消我们（我们活该）。

追平满血版o1的国产多模态模型终于来了！训练细节全部公开

春节前最后一周，能媲美 Open AI 满血版 o1（Full Version，而非 preview）的模型终于出现了！刚刚，月之暗面公布了他们的 Kimi k 系列模型最新版本 ——k1.5 多模态思考模型。新模型在数学、代码、多模态推理能力等方面全面对标 Open AI 满血版 o1，而且是 OpenAI 之外首个多模态 o1。

1/21/2025 8:00:00 AM

机器之心

Anthropic CEO惊人预警：27年AI超越人类！Claude今年更新全剧透

失踪人口终于回归了！在互联网消失一段时间后，Anthropic首席执行官Dario Amodei一上来就接受了WSJ、CNBC两家采访，连曝AI大瓜。他坚定地认为，「2027年之前，AI完全可以超越人类智能！

1/23/2025 9:00:00 AM

新智元

中国AI太强，Meta工程师吓疯？自曝疯狂熬夜复制DeepSeek，天价高管心虚了

今天，Meta员工在匿名社区TeamBlind上的一个帖子，在业内被传疯了。 DeepSeek，真实地给了美国人亿点点「震撼」。 DeepSeek R1是世界上首个与OpenAI o1比肩的AI模型，而且与o1不同， R1还是开源模型「Open Source Model」，比OpenAI还Open!更有人曝料，DeepSeek还只是个「副项目」，主业根本不是搞大模型！

1/24/2025 1:20:00 PM

新智元

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

GPT-4.1淘汰了4.5！全系列百万上下文，主打一个性价比 关注前沿科技 量子位 2025年04月15日 09:44