编辑 | 伊风
"GPT-4.5 并非前沿模型,但它是OpenAI最大的 LLM,比 GPT-4 的计算效率提高了 10 倍以上"。
图片
这句话就这么水灵灵地出现在GPT-4.5官方给的System Card(系统卡)中。
https://cdn.openai.com/gpt-4-5-system-card.pdf
从2023年3月14日的GPT-4,等了两年,竟然等来一句“不是前沿模型”这么让人失望的话。
大了10倍的GPT-4.5确实不是卷榜单排名的学霸:
编码方面,GPT-4.5 在编码问题上的得分率为 79%,与深入研究的得分率持平,但与 o3-mini 相比表现不佳。
图片
与 o1 和 o3-mini 相比,GPT-4.5 的 SWE-bench 验证得分真的很低 。
图片
虽然这些许多基准性能上比不过 Deepseek V3,但API价格却是贵的离谱。
达到了V3的280倍!!!有人解读说,OpenAI把价格抬得这么高,还是为了防止被蒸馏。
图片
就算和自己比,也是贵出天际了!达到了 OpenAI 的主力GPT-4o模型输入成本的 30 倍,输出成本的 15 倍。
不过奥特曼自己的推特,还流出了另一种API价格“虚高”的解释,OpenAI家也没有GPU了!
“这是一个巨大而昂贵的模型。我们非常希望同时向 Plus 和 Pro 推出该模型,但是我们的业务增长很快,GPU已经用完。”
图片
从好消息的part可以看出,昂贵的GPT-4.5,主打的是高情商、更像人(但这不是DeepSeek玩过的东西了吗??)
不过,高EQ的ChatGPT,可以更好地追踪用户意图了,因此在实际任务的解决上会进行提升。
图片
因此,GPT-4.5应用到智能体(Agent)领域还是颇具潜力的,而这也是今年AI发展的一个重要方向。
图片
关注AI的朋友都知道,GPT-4.5/GPT-5的迟发一直与AI“撞墙”有很大的关系。
虽然,Ilya先一步给预训练判了“死刑”。但很多人的态度都是,再等一等,等到GPT-4.5发了再下结论也不迟。
看今天的样子,预训练的丧钟好像真的敲响了。读了AI大神Karpathy的实测感想,更是发现他对AI瓶颈有句微妙而委婉的话是“仿佛回到了两年前”,一切激进的提升,似乎已经终止了。
1.Karpathy实测感想:一切都稍微变得更好,但以一种分散的方式
前OpenAI研究员Karpathy也在第一时间发表了自己的感想:
图片
“今天是OpenAI发布GPT4.5的日子。我已经期待这个版本大约两年了,自从GPT4发布以来,因为这个版本提供了一个定性的度量,衡量通过扩大预训练计算量(也就是简单地训练一个更大的模型)所能获得的进步坡度。版本号每增加0.5,大约代表了10倍的预训练计算量。
现在回想一下,GPT1几乎生成不出连贯的文本。GPT2是一个困惑的玩具。GPT2.5直接跳过,进入了GPT3,它更有意思了。GPT3.5跨越了一个门槛,足以作为产品发布,激发了OpenAI的“ChatGPT时刻”。而GPT4则让人感觉更好,但我会说它确实感觉有些微妙。我记得我曾参与过一个黑客马拉松,尝试找出具体的提示,看看GPT4如何超越3.5。它们确实存在,但明确且具体的“决胜性”例子并不容易找到。
那种感觉就是……一切都稍微变得更好,但以一种分散的方式。词汇选择更有创意了。对提示的细微理解得到了改善。类比也更有道理了。模型变得稍微更有趣了。世界知识和理解在一些罕见领域有所提升。幻想的频率稍微降低了。整体氛围更好了。就像是水涨船高,一切都稍微提升了20%。
所以,我带着这样的期待进入了对GPT4.5的测试,几天前我有机会接触到了它,它的预训练计算量比GPT4增加了10倍。我感觉,仿佛回到了两年前的黑客马拉松。所有东西都变得稍微更好,这很棒,但也不是那种容易指明的简单改进。不过,作为对通过简单的预训练更大模型所能带来的能力提升的定性衡量,这依然是非常有趣和令人激动的。
请记住,GPT4.5仅通过预训练、监督微调和RLHF进行训练,因此它还不是一个推理模型。因此,这个版本的发布并没有在推理至关重要的任务(如数学、编程等)上推动模型能力。
在这些情况下,通过强化学习训练并获得推理能力是非常重要的,即使它是在一个较旧的基础模型之上(例如,GPT4级别的能力)。目前在这一领域的前沿仍然是完整的O1模型。可以推测,OpenAI现在将寻求在GPT4.5模型的基础上进一步进行强化学习训练,让它具备思考能力,从而推动这些领域的模型能力。
然而,我们确实预期会在那些不以推理为主的任务上看到改进,我认为这些任务更多地与情商(而非智商)相关,且受限于世界知识、创造力、类比推理、一般理解、幽默等因素。因此,这些任务是在我的“氛围检测”中我最感兴趣的。”
此外Karpathy还发起了五个测试,请大家投票来看看GPT-4.5和GPT-4在“盲审”的情况下哪个生成的结果会更好。
图片
这是翻译过来的第一测试,大家觉得A和B哪一个是GPT-4.5模型生成的?
“创建一个GPT-4.5和GPT-4之间的对话,其中GPT-4.5以戏谑和讽刺的方式调侃GPT-4的能力较差,导致GPT-4幽默地尝试为自己辩护。”
左A右B
Karpathy还有两三个小时会揭晓答案,到时我们会把答案更新在评论区中。
2.“如果不是推理模型续命,这波AI热可能快结束了”
关于GPT-4.5的表现,也有一些正向评价,基本分为两个维度,一个是EQ提升的GPT在情感上成为AGI的潜力:
“感觉像与意味真正的领域专家和顾问进行交谈,而不是一个大模型。”
图片
另一个维度的肯定是,GPT-4.5只是一个基础模型,如果可以在这个模型基础上做推理,最后呈现的效果应该是很能打的。
“如果以后按4.5作为基础搞推理,估计就能超过人类水准了。”
图片
但更多人的看法是,一个时代落下了帷幕,但说不清是什么时代。
有人说,GPT-4.5主张在EQ上进行提升,证明在AI领域中的动向已经开始跟DeepSeek对齐了。这表明OpenAI将淡出AI的中心舞台,接下来是个群雄争霸的时代。
也有人说,这表明预训练已经盖棺定论。“如果不是在24年底搞出来了推理模型,人工智能炒作今天就结束了”。
图片
与GPT-4.5一样走“堆算力”路线的Grok 3,也没有带来预期中“地表最强AI”的惊艳效果,接下来,大家可能都会抛弃这条不经济的路线。
图片
3.OpenAI何去何从,奥特曼称或进军社交应用
今天GPT-4.5的发布直播,奥特曼本人并没有出现。
图片
最近刚刚升级父亲的奥特曼回应说,正在医院带娃中。
图片
科技圈有一个诅咒,“当新一波技术浪潮来临时,许多曾经的行业巨头往往会因为未能及时适应变革,最终被后来的创新者超越。”
可能是AI圈的时间流速太快,仅仅两年,OpenAI的领导疲态已经显现。
今天当CNBC报道,Meta将推出一个独立的AI应用与ChatGPT抢蛋糕时。奥特曼转发了这条推特说,“可以,也许我们也会做一个社交应用,如果我们反转局势偷袭了Meta老家,那就太有趣了”。
所以,OpenAI会转型成一家“大厂”吗?我们拭目以待。