o1 Pro挑战最难本科数学考试,人类要考6小时,AI半小时交卷!
普特南数学竞赛(The Putnam exam),今年刚刚举行,卷子新鲜出炉就被拿来测试AI了。
这个比赛有多难呢?看了一下历年成绩,只能说令人咂舌——
通常由数学专业的本科生参加,满分120分,但平均分通常是0分或1分。自1938年举办以来,截至2021年只有5人满分。
再看一组2003年的数据,在3615名参赛学生中,有1024人(28%)得分10分或以上,42分就能进入前1%。
最终,个人得分前五名的学生获得普特南学者称号。而经过这种难度的“磨炼”,普特南学者中后来诞生了3位菲尔兹奖得主以及两位诺贝尔物理学奖得主。
总之一句话,即使对美国顶尖大学的顶尖数学学生来说,这个比赛的难度都堪称地狱级。
所以,o1 Pro具体表现如何呢??
o1 Pro挑战最难本科数学考试
普特南数学竞赛于每年12月的第一个周六举行,总共上下两场(每场3小时),每场6道题,每题10分,考查范围覆盖了本科数学中的高级概念,包括群论、集合论、图论、格论和数论等。
由于刚考完,官方还未正式公布今年的参考答案,所以下面我们先整体感受一下。
从时间来看,Pro完成12道题用时36分钟16秒,交卷速度非常快,平均每道用时2~3分钟。
完成的题也很复杂,随机挑一道康康。
比如这道A6,需要考生通过序列所生成的函数,来构建矩阵,并最终计算出这个矩阵的行列式。
这是一个典型的组合数学和线性代数的交叉问题。
最终,Pro给出了一大堆让人头疼的数学公式进行解答。(非专业选手两眼一黑的程度)
为了进一步了解Pro的答题过程,我们再挑一道网友们都在cue的题——A1。
原题及Dan Hendrycks博士输入的提示词如下:
大意为,确定所有正整数𝑛,使得存在正整数𝑎,𝑏和𝑐满足下列方程。
Pro的作答过程如下,并得出答案为1:
结合网友们给出的评价,均提到Pro漏掉了n=2这种情况。
总之,从大家对Pro的打分来看,其回答质量仍有待进一步完善。
由于目前还没有标准答案,因此AI究竟做对了多少还要等等结果。
除此之外,首位全职提示词工程师Riley Goodside也对o1 Pro模式进行了其他诸多测试。
挑战指令跟随的极限
比如用它设计一个7×7的网格,网格的外围一圈填入7个字母的单词,这些单词代表Fantastic Four(神奇四侠)中每个成员的昵称。每个单词的首尾字母需要重叠,以便可以顺时针方向连续阅读,形成闭环。
PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隐形女(Invisible Woman)、霹雳火(Human Torch) 、石头人(The Thing)。
看完这个测试,有网友借机许愿:
是否能够根据每个玩家剩余的棋子列表,创建一个checkmate(指另一方无法解围的情况,也称“将死”)的棋盘。
受此启发,Riley Goodside转头就测上了。
他用Pro摆出了一个“将军”格局——每位玩家只剩下两个兵和一个车,棋盘上其他格子都是空的。(布局是人为设计的)
就这,还是他一番努力尝试后的结果。他一开始用了两个兵、两个象和一个车的棋局,但在多次尝试中,Pro出现了错误,或者返回了不符合的棋局。
不过他也提到,在5分45秒的时间内,Pro生成了与答案大致一致的COT思维链解释。
总之,要问定价200美元的Pro到底值不值?
还是参考奥特曼的回答,绝大多数人用免费版或20美元版就足够了,Pro版只适合很小一部分人,他们想要大量使用,且愿意为解决真正困难的问题付更多钱。
One More Thing
不过,如果你也心痒想要玩一玩,现在有个省钱的方法。根据网友提醒——
月底买Pro,只需按比例支付了。
具体来说,如果你之前订阅了ChatGPT Plus,如果在订阅接近结束时升级到Pro版,就可以在剩余时间内按照200美元的百分比支付。
参考链接:[1]https://x.com/DanHendrycks/status/1865858756040704335。[2]https://x.com/goodside/status/1865844652428919121。[3]https://x.com/goodside/status/1865629150104404150。[4]https://x.com/goodside/status/1865514669697323290。[5]https://x.com/goodside/status/1865090104441672183。[6]https://x.com/SmokeAwayyy/status/1865441145788199051。