李飞飞、DeepSeek为何偏爱这个国产模型?

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。 他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力! 团队也再次证明了测试时Scaling的威力。

斯坦福李飞飞团队的一篇论文,近来在AI圈子掀起了一场飓风。

他们仅用1000个样本,在16块H100上监督微调26分钟,训出的新模型s1-32B,竟取得了和OpenAI o1、DeepSeek R1等尖端推理模型相当的数学和编码能力!

团队也再次证明了测试时Scaling的威力。

就连AI大神Karpathy都为之惊叹。

李飞飞、DeepSeek为何偏爱这个国产模型?

值得一提的是,研究人员是基于阿里通义千问Qwen2.5-32B-Instruct,完成了推理模型的微调。

甚至,在竞赛数学问题上,新模型竟将o1-preview甩在身后,领先27%。

这一爆炸性突破,让全世界目光都聚焦在了,这个来自阿里云的大模型——通义千问Qwen。

早在此之前,红遍全网的DeepSeek便选择的也是Qwen模型。

他们将DeepSeek-R1推理能力蒸馏6个模型开源给社区,其中4个都是基于Qwen打造。基于Qwen-32B蒸馏的模型,在多项能力上性能直追o1-mini。

再一次,通义千问Qwen模型又在开源社区火了。

李飞飞、DeepSeek为何偏爱这个国产模型?

有专家提出:也许,这是我们第一次认真尝试研究,推理中究竟发生了什么变化。

现在,我们有充分的理由去质疑「涌现」的说法,也有了更多动力去理解,为什么Qwen-2.5-Math的基础模型要比Llama 3.1好这么多。

的确,如今在业内,这一现象越来越成为大家公认的事实——

凭借强劲的性能,多样化开源尺寸,以及全球最大的衍生模型群,Qwen已经取代Llama成为开源AI社区最重要的标杆基座模型。

站在巨人的肩膀上

自2023年8月以来,阿里云通义千问掀起了一场开源革命。

Qwen、Qwen1.5、Qwen2、Qwen2.5四代模型相继开源,覆盖了大语言模型、多模态模型、数学模型和代码模型等数十款。

在HuggingFace的Open LLM Leaderboard、Chatbot Arena大模型盲测榜单、司南OpenCompass等多个国内外权威榜单中,Qwen性能全球领先,屡次斩获「全球开源冠军」。

甚至,有业内专家指出——

当前AI领域的诸多突破性进展,无论是微调、蒸馏,还是其他低成本创新技术,并非从0开始训练,而是建立在Qwen等基础模型的优异性能之上。

Databricks研究科学家Omar Khattab称,「更多关于Qwen的发现。我越来越确信这些论文似乎发现了一些关于Qwen模型的特性,而不一定涉及推理能力的突破」。

李飞飞、DeepSeek为何偏爱这个国产模型?

另一位来自滑铁卢大学计算机系助理教授Wenhu Chen对此观点表示极大地认同。

他表示,这基本和s1的发现一样,用大约1000个样本就能得到类似的训练结果。

在别的模型上用同样的数据训练,但却完全没成效,这是为何?

显然,Qwen模型本身必然有一些神奇之处。

李飞飞、DeepSeek为何偏爱这个国产模型?

越来越多的人不约而同地发现,「我们几乎什么都没做,Qwen 2.5却几乎什么都能做了。」

这就说明,它的基础模型一定性能超强,在基准测试中非常领先。

因为,这已经完全不能用训练数据质量来说明了。

李飞飞、DeepSeek为何偏爱这个国产模型?

李飞飞、DeepSeek为何偏爱这个国产模型?

李飞飞团队s1模型用实践证明,在特定条件下,低成本(不到50美金)训练确实能够产生令人惊喜的结果。

这在很大程度上,要归功于它所依赖的基座模型——通义千问Qwen。

如果没有这样强大的模型作为支撑,想要去实现同样的效果,恐怕并非易事。

包括DeepSeek开源蒸馏后四款Qwen模型,也是如此。

李飞飞、DeepSeek为何偏爱这个国产模型?

这也让Qwen成为推动前沿技术发展的又一重要案例。

全尺寸、全模态、多场景

可以说,阿里云Qwen模型是业界率先实现「全尺寸、全模态、多场景」的开源。

无论是1.5B、72B还是110B,Qwen开源的模型尺寸和版本的覆盖面都最广,让开发者和企业有了更多选择的余地。

从2024年开始,Qwen就已经在开发者中拥有越来越高的影响力。

比如,在全球最知名的开源社区HuggingFace数据统计中,2024年,仅Qwen2.5-1.5B-Instruct这款模型,就占到了全球模型下载量的26.6%,远高于第二名Llama-3.1-8B-Instruct-GGUF的6.44%。

李飞飞、DeepSeek为何偏爱这个国产模型?

而仅仅是视觉理解Qwen-VL及Qwen2-VL两款模型,全球的下载量就突破了3200万次。

就在一周前,Qwen2.5-VL全新升级,又引发了新一轮的开源社区狂热。

如今,细数海内外开源社区,Qwen的衍生模型数量已突破9万,直接超越了Llama系列衍生模型。

DeepSeek和李飞飞的选择,更是证明了Qwen系列的强大潜力。

在未来,它必将继续创造新的奇迹。

相关资讯

微软等开源AIOpsLab,可构建自主云AI Agent

微软、加州大学伯克利分校、伊利诺伊大学等研究人员联合开源了,一个专用于云自动化运维的AI Agents——AIOpsLab。 AIOpsLab能模拟真实云服务环境中的复杂操作任务,实现故障的自动化检测、定位和解决问题。 还具备高度的可观测性,能够收集和分析关键的遥测数据,确保对系统状态和应用环境的深入洞察。

DeepSeek开源Janus-Pro-7B:多模态AI模型性能超越DALL-E 3 和 Stable Diffusion 3!

中国人工智能公司 DeepSeek 的 R1“推理”人工智能已经引起了广泛关注,位居应用商店排行榜首位并改变了股市。 随后DeepSeek又宣布开源新一代多模态模型Janus-Pro-7B,该模型在图像生成、视觉问答等任务中全面超越 OpenAI 的 DALL-E 3 和 Stable Diffusion 3,并以“理解-生成双路径”架构和极简部署方案引发AI社区轰动。 性能表现:小模型吊打行业巨头Janus-Pro-7B虽仅有70亿参数(约为GPT-4的1/25),却在关键测试中碾压对手:文生图质量:在GenEval测试中以80%准确率击败DALL-E 3(67%)和Stable Diffusion 3(74%)复杂指令理解:在DPG-Bench测试中达84.19%准确率,能精准生成如“山脚下有蓝色湖泊的雪山”等复杂场景多模态问答:视觉问答准确率超越GPT-4V,MMBench测试得分79.2分接近专业分析模型技术突破:像“双面神”分工协作传统模型让同一套视觉编码器既理解图片又生成图片,如同让厨师同时设计菜单和炒菜。

OpenAI突宣开源计划:端侧模型or小模型二选一!奥特曼在线征集投票全球最大开源视频模型,现在也Created in China了,阶跃出品

刚刚,阶跃星辰联合吉利汽车集团,开源了两款多模态大模型! 新模型共2款:全球范围内参数量最大的开源视频生成模型Step-Video-T2V行业内首款产品级开源语音交互大模型Step-Audio多模态卷王开始开源多模态模型,其中Step-Video-T2V采用的还是最为开放宽松的MIT开源协议,可任意编辑和商业应用。 (老规矩,GitHub、抱抱脸、魔搭直通车可见文末)在两款大模型的研发过程中,双方在算力算法、场景训练等领域优势互补,“显著增强了多模态大模型的性能表现”。