吴泳铭预告的旗舰推理模型更了!阿里重磅推出QwQ-Max预览版,Agent或成正式版王炸;一手实测R1热门问题,各有千秋!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)吴泳铭亲自预告过的,阿里旗舰推理模型,新消息来了。 刚刚,它的预览版正式发布和上线体验——就是这个QwQ-Max-Preview! 一眼看去,我愿称之为最萌的推理模型,看blog主页的名称,感觉思维链中的模型正在很努力的思考中……图片Qwen Chat 中已经可以体验预览版模型:,发现这里有一个隐藏彩蛋,内容是由QwQ-Max-Preview自己写的,我们可以看到AI做自我介绍时的思维链:首先,该模型属于 Qwen 系列,是基于 Qwen2.5-Max 构建的。

编辑 | 伊风

出品 | 51CTO技术栈(微信号:blog51cto)

吴泳铭亲自预告过的,阿里旗舰推理模型,新消息来了。

刚刚,它的预览版正式发布和上线体验——就是这个QwQ-Max-Preview!

一眼看去,我愿称之为最萌的推理模型,看blog主页的名称,感觉思维链中的模型正在很努力的思考中……

图片图片

Qwen Chat 中已经可以体验预览版模型:https://chat.qwen.ai/

点进模型的blog,发现这里有一个隐藏彩蛋,内容是由QwQ-Max-Preview自己写的,我们可以看到AI做自我介绍时的思维链:

首先,该模型属于 Qwen 系列,是基于 Qwen2.5-Max 构建的。这是一个 预览版,所以他们可能希望强调它是在正式发布前的 抢先体验。它的主要优势包括 深度推理、数学、编程、通用领域任务,以及在 Agent 相关任务 中的出色表现。他们还提到了 未来的更新 以及 计划以 Apache 2.0 许可证开源。

图片图片

blog地址:https://qwenlm.github.io/blog/qwq-max-preview/

预览版已经来了,QwQ-Max正式版还会远吗?我们先来看一波预览版的抢先体验够不够精彩:

官方给的栗子1:编写一个脚本,在一个球体内模拟 100 个弹跳的黄色小球,确保正确处理碰撞检测。让球体缓慢旋转,并确保小球始终保持在球体内部。

效果已经很惊艳,如果要挑刺的话,那就是有几个小球的运动速度略显奇怪:

吴泳铭预告的旗舰推理模型更了!阿里重磅推出QwQ-Max预览版,Agent或成正式版王炸;一手实测R1热门问题,各有千秋!

官方给的栗子2:做个俄罗斯方块 和 2048 结合的游戏。(PS:Grok 3发布时也测了一个类似的例子,是把俄罗斯方块和宝石迷阵相结合的。)

你别说,看上去还挺好玩,就是感觉难度有一点点大:

吴泳铭预告的旗舰推理模型更了!阿里重磅推出QwQ-Max预览版,Agent或成正式版王炸;一手实测R1热门问题,各有千秋!

此外,QwQ-Max-Preview 将配备多种Agent,例如推理生图、火车票查找、代码解释器等等。

看这几个Agent的细分程度,盲猜QwQ-Max在Agent会有很大的动作,而且下图中的Tools工具似乎可以在一次询问中多选,让人对正式版的使用效果期待拉满了。

图片图片

官方也给了一个推理画图的例子,还顺便画了个淘宝二维码。扫了一下果然就跳转成功了:

吴泳铭预告的旗舰推理模型更了!阿里重磅推出QwQ-Max预览版,Agent或成正式版王炸;一手实测R1热门问题,各有千秋!

1.一手实测:QwQ-Max-Preview回答R1热门问题,是否各有千秋?

到实测这个Part,小编觉得如果还是测一把“草莓”和“9.9>9.11”,就有点太无聊了。

毕竟DeepSeek R1之所以如此出圈,不是因为能答对这几个案例,而是真的能帮助用户解决生活中的问题,甚至解答人生中的困惑。

上图:虽说如此,但还是测了这个案例,QwQ-Max-Preview轻松通关上图:虽说如此,但还是测了这个案例,QwQ-Max-Preview轻松通关

然后在小红书看看,用户都在使用DeepSeek R1问些什么吧。

我们就以有1w+笔记的“如何当父母才不累”,以及第二名“普通人如何利用信息差搞钱”这两个问题来横向比较下两个推理模型吧。

图片图片

使用如何“如何当父母才不累”这个话题进行实测,QwQ-Max-Preview能够分析用户的具体情况、深层需求,并提供实用建议,进行了完整的思考。

图片图片

两个模型在输出的内容上大概方向一致,QwQ-Max-Preview更注重提供建议。此外,R1在思维链中特别指出要“保持口语化”,提供的答案更有“情绪”一些也相对详细。

上图:两个模型都提到了“接受不完美”上图:两个模型都提到了“接受不完美”

而在第二个问题上,QwQ-Max-Preview同样能完成接地气、具有逻辑的思考。同时千问还不忘和自家的产品“梦幻联动”一把,提供了“拼多多进货,批量采购后在淘宝加价卖出”“闲鱼搜索‘倒闭库存’”等建议。

图片图片

在这个回答上,R1做的稍微好的一点是区分了“低门槛起步方式”“进阶变现模式”等层次,看起来更有操作性。

当然,QwQ-Max-Preview毕竟只是预览版,从实测体验上,其回答问题更加流畅丝滑。不会像R1那样需要等待才开始思考,也不会提心吊胆会弹出“服务器繁忙”。

对了,千问团队今天宣布,QwQ-Max也是要做APP的(推特消息是面向海外用户的,不知道国内是更新通义上,还是也单做APP ?)。期待正式版的QwQ-Max,能在输出问题的格式和口语化方面继续进步,继续缔造AI应用的传奇!

图片图片

2.旗舰推理模型的基座——Qwen2.5-Max

这里在帮朋友们回顾下QwQ-Max-Preview的基座,Qwen2.5-Max。

Qwen2.5-Max在除夕夜发布,是阿里家的超大规模MoE模型,采用超过20万亿tokens的预训练数据。

该模型在多个基准测试中超越DeepSeek V3、GPT-4o等领先AI,支持指令模型和基座模型。

也就是说QwQ-Max的推理模型,其基座是强于DeepSeek R1的基座V3的。

另外,今天推出的预览版并非阿里首个推理模型。

去年通义就有了QwQ系列,不过是一个32B小模型的预览版。

https://huggingface.co/Qwen/QwQ-32B-Preview

图片图片

3.写在最后

这周的大模型更新已经到了神仙打架的级别了。

从预览版来看,QwQ-Max正式版绝对值得一看,尤其是正式版后开放的Agent功能,期待能给智能体的市场带来一些颠覆性的创新。

想了解更多AIGC的内容,请访问:

51CTO AI.x社区

https://www.51cto.com/aigc/

相关资讯

阿里重回伟大!吴泳铭财报讲话全文曝光:开发者会天然选择阿里云,发布旗舰推理模型!未来三年,阿里对基础设施投资将超过去十年总和!

出品 | 51CTO技术栈(微信号:blog51cto)编辑 | 伊风昨晚,阿里2025财年Q3财报新鲜出炉,同比增长8%,可以说成绩相当亮眼! 淘天增收继续加快,阿里云增速重回加速状态,多项核心业务增速达到年内最佳。 财报显示:阿里第三季度营收增速创逾一年以来最快,资本开支大增,核心业务加速增长,淘天收入增长加快,阿里云收入重回双位数增长(13%),增幅创约两年以来最大,AI相关产品收入连续六季度保持三位数增长。

阿里 CEO 吴泳铭:AI 算力需求渗透率超 50%,最大的想象力不在手机屏幕

感谢今日举办的 2024 云栖大会开幕式上,阿里巴巴集团董事兼 CEO、阿里云智能集团董事长兼 CEO 吴泳铭表示,“在新增的算力市场和算力需求中,超过 50% 以上的需求现在都由 AI 驱动产生,AI 算力的需求渗透已经超过 50%,已经占据主导地位,未来这一趋势还会持续地扩大。”“AI 计算正在加速演进,成为整个计算体系的主导,无论是端侧的计算还是云端的计算,这都是一个非常明显的趋势,生成式 AI 对数字世界和物理世界的重构,将带来计算架构的根本性变化。”吴泳铭表示,“过去几十年 CPU 主导的计算体系,正在加

OpenAI新研究:o1增加推理时间就能防攻击,网友:DeepSeek也受益

OpenAI的新Scaling Law,含金量又提高了。 像o1这样的推理模型,随着思考时间的延长,面对对抗性攻击会变得更加稳健。 图片随着大语言模型被越来越多地赋予Agent能力,执行现实世界的任务,模型被对抗攻击的风险也与日俱增。