阿里云通义千问

阿里通义千问开源发布新一代端到端多模态模型Qwen2.5-Omni

3月27日，阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计，能够无缝处理文本、图像、音频和视频等多种输入形式，并通过实时流式响应同时生成文本与自然语音合成输出。 Qwen2.5-Omni采用了创新的Thinker-Talker架构，这是一种端到端的多模态模型，旨在支持文本、图像、音频、视频的跨模态理解，并以流式方式生成文本和自然语音响应。