Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

公认的编程开发能力第一! Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。 大幅甩第二名100多分,在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。

公认的编程开发能力第一!Claude 3.7 Sonnet刚刚登顶WebDev竞技场榜首。

大幅甩第二名100多分,在榜单前十的其它相邻模型分差仅为几分、几十分的情况下。

那第二名是谁呢?还是Claude自己——Claude 3.5 Sonnet。

图片

WebDev榜单与我们所熟知Chatbot Arena榜单“同宗同源”,也是由LMArena(LMSYS Org)打造,不过更专注于AI编程、网页应用开发能力。

值得一提的是,DeepSeek R1作为榜单前十唯一的开源模型排名第三,超越early-grok-3、o3-mini-high、Claude 3.5 Haiku等。

对于Claude 3.7 Sonnet高分登顶,有网友表示并不惊讶。

图片

毕竟,这两天网友们疯狂实测Claude 3.7,一次又一次被惊艳到,最新实测更是再次刷新网友对Claude 3.7的认知。

Claude 3.7最新实测

比如前两天下面这个Claude 3.7 Sonnet用p5js编写布料模拟效果在网上疯传:

Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

有位学者看到后,还晒出了自己1986年在MIT的硕士论文,主题正是“布料外观建模”。他提到,过去完成这项工作需要数天时间,而现在AI只需几分钟就能超越他,不禁感叹:

虽然他们现在还付我薪水,但这样的日子还能持续多久呢?

图片

现在,更扎心了老铁。

网友又做出了另一版,还是带有明暗关系的那种:

网友表示“这种效果即使是在高级图形学课中,也很少有教怎么做的”。

图片

除此之外,Reddit上一位老哥的最新分享也引发网友热议。

他表示突然想起一个自己在1997年用Visual Basic 4编写的古老应用程序,于是将这个27年前的EXE文件上传到了Claude 3.7并请求转换为Python代码,结果Claude不仅分析了文件组件,还在5分钟内用Pygame写出完美转换且可运行的Python代码。

图片

这位老哥还晒出了自己与Claude 3.7的聊天记录:

图片

网友get新玩法后纷纷开始效仿。

图片

另外,有网友体验了Claude 3.7的新GitHub集成功能后表示“它改变了工程师理解软件的方式”:

可以Frok一个代码库选择一个特定的文件夹,然后向它提问关于代码的任何问题,Claude还会显示每个文件夹在上下文窗口中所占的百分比,帮助你更好地理解代码结构和内容。

比如,Claude 3.7可视化了yt-dlp(一个YouTube下载器)的工作流程:

图片图片

沃顿商学院教授Ethan Mollick也放出了最新实测。

例如,基于“Bartleby the Scrivner”故事创建的小游戏:

Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

还可以用Claude 3.7制作一个互动式的“时光机道具,能够穿越回过去”:

Claude 3.7登顶编程竞技场,大幅领先100分!最新布料模拟实测再惊艳网友

Ethan Mollick特意写了一篇Blog介绍Claude 3.7。

有意思的是,这篇Blog被Anthropic官方注意到了,官方表示Claude 3.7没有那么大(花几千万美元训练的那种)。但之后的模型规模会增长。

图片

相关资讯

OpenAI内部模型曝光!编程能力跻身全球Top50程序员,年底不再有人类对手

除了o1/o3,OpenAI另一个尚未公开的内部推理模型曝光了。 爆料者正是CEO奥特曼本人。 据他透露,与全球顶尖程序员相比,当前这一内部模型的编程能力已达Top50,甚至今年年底将排名第一。

实测字节免费AI编程,还让不让Cursor活了

国内首个原生AI IDE(集成开发环境),来自字节,实测在此:哪怕一点代码都不懂,只要能说出自己的需求,就能靠AI开发出一个功能完备的应用。 例如如果你想做一个Flappy Bird游戏,那就用中文跟它说一声就行:生成一个网页版 Flappy Bird游戏并运行。 不难看出啊,整个过程真真儿的就是一气呵成。

OpenAI掀「百万美金」编程大战!Claude 3.5 Sonnet狂赚40万拿下第一

昨天马斯克刚刚发布了号称「地表最聪明」的Grok 3模型,抢走了所有关注。 这边OpenAI就开始坐不住了,立刻扔出了SWE-Lancer(AI编码测试基准),看一下AI到底能在现实任务中挣到多少钱。 SWE-Lance是一个全新的、更贴近现实的基准测试,用于评估AI模型的编码性能。