阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河

编辑 | 言征阿里真的是开源模型界的扛把子,这次把类o1模型的预览版也公开推出了,现在大家都可以直接在抱抱脸上体验又一个国产版的万能推理机了! 小编迫不及待地马上尝试了两个高中奥数题,一道数列题、一道概率题,这解题思路堪称完美闭环。 全对!

编辑 | 言征

阿里真的是开源模型界的扛把子,这次把类o1模型的预览版也公开推出了,现在大家都可以直接在抱抱脸上体验又一个国产版的万能推理机了!

小编迫不及待地马上尝试了两个高中奥数题,一道数列题、一道概率题,这解题思路堪称完美闭环。全对!

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

紧接着,我在想是不是题目太简单,直接上了一道微积分几何考研题,没想到居然也答对了!真被惊到了,这还需要什么考研辅导教材,有问题,找千问就行了!

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

1.QwQ:不断反思、自我质疑,更聪明

QwQ-32B-Preview 是由阿里 Qwen(通义千问) 团队开发的实验性研究模型,专注于增强 AI 推理能力。作为预览版本,其分析推理能力可以看出已经十分让人兴奋。

Qwen官网介绍道,通过深入的探索和无数的试验,我们发现了一个深刻的道理:当模型有足够的时间思考、质疑和反思时,它对数学和编程的理解就会深化。

就像学生通过认真地检查自己的工作并从错误中学习变得更加聪明一样,我们的模型也通过耐心和深思熟虑的分析获得了更深入的见解。这种细致的反思和自我质疑的过程使得模型能够取得解决复杂问题的突破性进展。

QwQ的探索之旅揭示了模型在数学和编程领域解决一些最具挑战性的问题的卓越能力,包括:

GPQA:一个通过研究生级别问题评估高阶科学解题能力的评测集,旨在考察科学问题解决能力。

AIME:涵盖算术、代数、计数、几何、数论、概率等中学数学主题的综合评测,测试数学问题解决能力。

MATH-500:包含500个测试样本的MATH评测集,全面考察数学解题能力。

LiveCodeBench:评估真实编程场景中代码生成和问题解决能力的高难度评测集。

然后,我们就看到QwQ的实验结果了,其中那个Math-500非常显眼的90.6就把小编给整的激动了。当然包含几何、代数、概率的AIME表现也很不错,50分,比OpenAI-o1-preview还要高出不少。

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河随着采用次数增加,QwQ的表现还在持续提升

具体表现如下:

GPQA:65.2%,展示了研究生水平的科学推理能力;

AIME:50.0%,证明了强大的数学问题解决技能;

MATH-500:90.6%,体现了在各类数学主题上的全面理解;

LiveCodeBench:50.0%,验证了在实际编程场景中的出色表现。

这些成果充分体现了QwQ在分析和问题解决能力方面的显著进步,尤其是在需要深度推理的技术领域。

那么,如何理解官网所说的“反思、自我质疑”呢?这里给大家放一张解题过程的截图:

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

这就像学生做出结果后还不忘记检查一遍自己是否做错了,做错了还能自我修改过来,有时还会用枚举打法,有时则会用代进结果去验证等式是否成立,太拟人了!

果真,懂得仔细检查的学生,更容易拿高分!

2.模型局限性

QwQ-32B-Preview 作为预览版本,同时也存在以下局限:

语言切换问题:模型可能在回答中混合使用不同语言,影响表达的连贯性。

推理循环:在处理复杂逻辑问题时,模型偶尔会陷入递归推理模式,在相似思路中循环。这种行为虽然反映了模型试图全面分析的努力,但可能导致冗长而不够聚焦的回答。

安全性考虑:尽管模型已具备基础安全管控,但仍需要进一步增强。它可能产生不恰当或存在偏见的回答,且与其他大型语言模型一样,可能受到对抗攻击的影响。团队强烈建议用户在生产环境中谨慎使用,并采取适当的安全防护措施。

能力差异:QwQ-32B-Preview 在数学和编程领域表现出色,但在其他领域仍有提升空间。模型性能会随任务的复杂度和专业程度而波动。目前该团队正在通过持续优化,努力提升模型的综合能力。

3.网友:OpenAI除了ChatGPT商标,没有护城河

毫无疑问,OpenAI是当今大模型圈子里的头号玩家,许多新技术、新概念都引领者行业的发展,然而做第一个发布的人并不意味着会在市场中也能持续做到永远第一,不管是sora还是“慢思考”推理,我们看到国产模型都有了快速的进步,甚至效果要超过OpenAI的节奏。

无怪乎hackernews上网友暗怼OpenAI:OpenAI除了ChatGPT商标之外没有护城河。

还有网友提及,OpenAI雄厚的融资能力也并不是其护城河,因为有许多实验室理论上比OpenAI拥有跟多的资金,FAIR、GDM、Qwen都是年利润达100亿美元的子公司,而OpenAI一年就亏损了50亿美元。

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

从这个角度讲,微软是OpenAI不能松开的真大腿!

有网友还提到了,英伟达的显卡肯定是最大的问题,但很快网友就解答了国产模型厂商的算力限制问题:许多中国科技巨头在制裁之前就已经储备了A100,也许还有一些H100。

在第一波制裁(禁止 A100 和 H100)之后,NVIDIA 发布了 A800 和 H800,它们是 A100 和 H100 的削弱版本。

然后是第二轮制裁,禁止 H800、A800,一直到像 A6000 和 4090 这样弱得多的卡。因此,NVIDIA 为中国发布了 H20。H20 是一张特别有趣的卡,因为它的计算能力较弱,但 vram 更大(96 GB,而不是 H100 的典型 80 GB)。

但一个事实是——

中国大型公司通常设有海外子公司,可以从 NVidia 购买 H100 GPU。

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

话说回来,还是为咱们国产的大模型研究团队们感到骄傲,我们的技术实力的确也赢得了全球同行的尊重。

阿里发布类o1模型QWQ,可自我反思纠错,实测数学推理远超o1、DS-R1,人人免费;网友:OpenAI除了商标,没有护城河图片

“即便名字中没有‘Open’,千问团队、DS团队对模型输出更加开放,也不隐藏中间思维过程,而且公开了他们的权重参数和训练时间和细节,包括过程中警告!”

国产模型真的是越做越好了,期待!

给TA打赏
共{{data.count}}人
人已打赏
理论

重磅开源!Kimi把自家底层推理架构都开源了,开源贡献阵容相当豪华:清华、阿里、华为、AISoft、面壁智能

2024-11-29 13:54:13

理论

一次示范让Agent适应各种新环境,浙大杭电智能体框架入选NeurIPS

2024-11-29 13:58:49

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索