AI在线 AI在线

赶在Deepseek-r2之前,阿里发布全球最强开源模型Qwen3,4张H20即可部署满血版

作者:DD
2025-04-30 01:10
最近几天,开源大模型是异常活跃。 从前几天有爆料deepseek-r2即将发布的消息:图片到昨天Qwen3短暂发布又撤回:图片再到今天Qwen3正式发布。 感觉就像一场军备竞赛,阿里这次终于抢在了deepseek-r2发布之前发布了Qwen3!

最近几天,开源大模型是异常活跃。

从前几天有爆料deepseek-r2即将发布的消息:

图片图片

到昨天Qwen3短暂发布又撤回:

图片图片

再到今天Qwen3正式发布。

感觉就像一场军备竞赛,阿里这次终于抢在了deepseek-r2发布之前发布了Qwen3!接下来的压力给到了DeepSeek,毕竟万一后发者在各方面没能超越对方的话,这一版本的努力影响力就要小很多了。

言归正传,一起看看这次阿里发布的最新开源大模型:Qwen3 的超强表现

Qwen3 概览

图片图片

Qwen3是阿里推出的Qwen系列最新一代大型语言模型,是国内首个“混合推理模型”。“混合推理”相当于把顶尖的推理模型和非推理模型集成到同一个模型里去,需要极其精细、创新的设计及训练。目前除了Qwen3之外,只有Claude3.7和Gemini 2.5 Flash可以做到。

性能炸裂

Qwen3旗舰模型Qwen3-235B-A22B在编码、数学、通用能力等基准评估中,与DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型相比,表现出色。

图片图片

此外,小型MoE模型Qwen3-30B-A3B以10倍激活参数超越QwQ-32B,甚至像Qwen3-4B这样的微型模型也能媲美千问2.5-72B-Instruct的性能。

图片图片

关键能力

• 单一模型内无缝切换思维模式:思考模式(适用于复杂逻辑推理、数学和编码)和非思考模式(适用于高效的通用对话),确保在各种场景下实现最佳性能。

• 多语言支持:覆盖119种语言和方言,具备强大的多语言指令遵循和翻译能力。

• 代理能力增强:支持MCP协议和自定义工具集成,强化了在思考和非思考模式下与外部工具的写作能力

• 极致成本控制:满血版仅需4张H20即可部署

• 上下文长度支持扩展至128K

快速上手

目前 Qwen3 已上架 ollama 和openrouter ,大家可以快速接入体验:

ollamaollama

openrouteropenrouter

最后,对于即将发布的deepseek-r2,您觉得能否超越Qwen3呢?

相关标签:

相关资讯

性能与效率的双赢:Qwen3横空出世,MoE架构大幅降低部署成本

阿里云旗下通义千问(Qwen)团队正式发布Qwen3系列模型,共推出8款不同规格的模型,覆盖从移动设备到大型服务器的全部应用场景。 这是国内首个全面超越DeepSeek R1的开源模型,也是首个配备混合思维模式的国产模型。 模型阵容丰富,满足各类部署需求Qwen3系列包含6款Dense模型和2款MoE模型:Dense模型:0.6B、1.7B、4B、8B、14B、32BMoE模型:Qwen3-235B-A22B (总参数235B,激活参数22B)Qwen3-30B-A3B (总参数30B,激活参数3B)所有模型均支持128K上下文窗口,并配备了可手动控制的"thinking"开关,实现混合思维模式。
4/29/2025 4:00:41 PM
AI在线

深夜突袭,阿里Qwen3登顶全球开源王座!暴击DeepSeek-R1,2小时狂揽17k星

就在今天凌晨,备受全球期待的阿里新一代通义千问模型Qwen3开源! 一经问世,它立刻登顶全球最强开源模型王座。 它的参数量仅为DeepSeek-R1的1/3,但成本大幅下降,性能全面超越R1、OpenAI-o1等全球顶尖模型。
4/29/2025 8:14:14 AM
新智元

阿里重磅发布Qwen3最佳开源LLM,击败 DeepSeek-R1,Llama4

一、Qwen 系列模型发展脉络回溯Qwen 系列模型是阿里云自主研发的成果,其诞生顺应了人工智能领域对强大语言处理能力不断追求的趋势。 自初代模型推出以来,便以高效的架构设计和扎实的预训练基础,在自然语言处理(NLP)任务中初显身手。 随着技术的迭代,Qwen 模型持续进化,参数规模不断扩大,训练数据日益丰富多样,在语言理解、生成等基础能力上稳步提升。
4/29/2025 10:39:46 AM
大模型之路
  • 1