o1 Pro挑战最难本科数学考试，36分钟16秒交卷

理论
12月10日
编辑

admin

o1 Pro挑战最难本科数学考试，人类要考6小时，AI半小时交卷！普特南数学竞赛（The Putnam exam），今年刚刚举行，卷子新鲜出炉就被拿来测试AI了。这个比赛有多难呢？

o1 Pro挑战最难本科数学考试，人类要考6小时，AI半小时交卷！

普特南数学竞赛（The Putnam exam），今年刚刚举行，卷子新鲜出炉就被拿来测试AI了。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

这个比赛有多难呢？看了一下历年成绩，只能说令人咂舌——

通常由数学专业的本科生参加，满分120分，但平均分通常是0分或1分。自1938年举办以来，截至2021年只有5人满分。

再看一组2003年的数据，在3615名参赛学生中，有1024人（28%）得分10分或以上，42分就能进入前1%。

最终，个人得分前五名的学生获得普特南学者称号。而经过这种难度的“磨炼”，普特南学者中后来诞生了3位菲尔兹奖得主以及两位诺贝尔物理学奖得主。

总之一句话，即使对美国顶尖大学的顶尖数学学生来说，这个比赛的难度都堪称地狱级。

所以，o1 Pro具体表现如何呢？？

o1 Pro挑战最难本科数学考试

普特南数学竞赛于每年12月的第一个周六举行，总共上下两场（每场3小时），每场6道题，每题10分，考查范围覆盖了本科数学中的高级概念，包括群论、集合论、图论、格论和数论等。

由于刚考完，官方还未正式公布今年的参考答案，所以下面我们先整体感受一下。

从时间来看，Pro完成12道题用时36分钟16秒，交卷速度非常快，平均每道用时2~3分钟。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

完成的题也很复杂，随机挑一道康康。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

比如这道A6，需要考生通过序列所生成的函数，来构建矩阵，并最终计算出这个矩阵的行列式。

这是一个典型的组合数学和线性代数的交叉问题。

最终，Pro给出了一大堆让人头疼的数学公式进行解答。（非专业选手两眼一黑的程度）

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

为了进一步了解Pro的答题过程，我们再挑一道网友们都在cue的题——A1。

原题及Dan Hendrycks博士输入的提示词如下：

大意为，确定所有正整数𝑛，使得存在正整数𝑎，𝑏和𝑐满足下列方程。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

Pro的作答过程如下，并得出答案为1：

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

结合网友们给出的评价，均提到Pro漏掉了n=2这种情况。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

总之，从大家对Pro的打分来看，其回答质量仍有待进一步完善。

由于目前还没有标准答案，因此AI究竟做对了多少还要等等结果。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

除此之外，首位全职提示词工程师Riley Goodside也对o1 Pro模式进行了其他诸多测试。

挑战指令跟随的极限

比如用它设计一个7×7的网格，网格的外围一圈填入7个字母的单词，这些单词代表Fantastic Four（神奇四侠）中每个成员的昵称。每个单词的首尾字母需要重叠，以便可以顺时针方向连续阅读，形成闭环。

PS：Fantastic Four包括漫威中的神奇先生（Mr. Fantastic）、隐形女（Invisible Woman）、霹雳火（Human Torch）、石头人（The Thing）。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

看完这个测试，有网友借机许愿：

是否能够根据每个玩家剩余的棋子列表，创建一个checkmate（指另一方无法解围的情况，也称“将死”）的棋盘。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

受此启发，Riley Goodside转头就测上了。

他用Pro摆出了一个“将军”格局——每位玩家只剩下两个兵和一个车，棋盘上其他格子都是空的。（布局是人为设计的）

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

就这，还是他一番努力尝试后的结果。他一开始用了两个兵、两个象和一个车的棋局，但在多次尝试中，Pro出现了错误，或者返回了不符合的棋局。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

不过他也提到，在5分45秒的时间内，Pro生成了与答案大致一致的COT思维链解释。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

总之，要问定价200美元的Pro到底值不值？

还是参考奥特曼的回答，绝大多数人用免费版或20美元版就足够了，Pro版只适合很小一部分人，他们想要大量使用，且愿意为解决真正困难的问题付更多钱。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

One More Thing

不过，如果你也心痒想要玩一玩，现在有个省钱的方法。根据网友提醒——

月底买Pro，只需按比例支付了。

具体来说，如果你之前订阅了ChatGPT Plus，如果在订阅接近结束时升级到Pro版，就可以在剩余时间内按照200美元的百分比支付。

o1 Pro挑战最难本科数学考试，36分钟16秒交卷

参考链接：[1]https://x.com/DanHendrycks/status/1865858756040704335。[2]https://x.com/goodside/status/1865844652428919121。[3]https://x.com/goodside/status/1865629150104404150。[4]https://x.com/goodside/status/1865514669697323290。[5]https://x.com/goodside/status/1865090104441672183。[6]https://x.com/SmokeAwayyy/status/1865441145788199051。

给TA打赏

共{{data.count}}人

人已打赏

AI o1 Pro 数学竞赛

数据不够？Meta刚刚发布的Llama 3.3正好拿来搞定！

2024-12-9 17:32:37

Sora火爆上线系统秒瘫，奥特曼直播第三更网友震翻！20秒1080p拍大片再近AGI

2024-12-10 7:29:58

0 条回复 A文章作者 M管理员

更换删除

暂无讨论，说说你的看法吧

TOP1

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新
12月16日
TOP2

快手预告“可灵 AI”导演共创计划作品 12 月 6 日上线：联合李少红、贾樟柯、叶锦添、薛晓路等
12月3日
TOP3

关于LLM-as-a-judge范式，终于有综述讲明白了
12月3日
平安人寿ChatBI：大模型智能化报表的深度实践
12月4日
李飞飞「世界实验室」重磅推出 AI“造物主”：一张图片生成 3D 世界“任意门”
12月3日
ChatGPT遇到这些人名开始自闭，OpenAI回应了
12月4日
字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片
12月5日
李飞飞空间智能首秀：AI靠单图生成3D世界，可探索，遵循基本物理几何规则
12月3日

❯

个人中心

今日签到

搜索

幸运之星正在降临...

点击领取今天的签到奖励！

恭喜！您今天获得了{{mission.data.mission.credit}}积分

今日签到

连续签到

{{item.credit}}

连续{{item.count}}天

我的优惠劵

_￥_优惠劵
使用时效：无法使用
使用时效：
之前
使用时效：永久有效

优惠劵ID：
×
限制以下商品使用：限制以下商品分类使用：不限制使用：

[{{ct.name}}]
所有商品和商品类型均可使用

没有优惠劵可用!

购物车

×
删除

购物车空空如也!

清空购物车前往结算

您有新的私信

没有新私信

写新私信查看全部