阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！

2025-03-27 12:30

出品 | 51CTO技术栈（微信号：blog51cto）Qwen Chat上新实时语音聊天视频聊天了！可以像打电话或视频通话一样与AI进行聊天，Qwen也有自己的Her了。更更重要的是，一向大方开源的千问，直接开源了背后的模型 Qwen2.5-Omni-7B（ Apache 2.0 许可），并发布了详细的技术报告！

出品 | 51CTO技术栈（微信号：blog51cto）

Qwen Chat上新实时语音聊天 + 视频聊天了！

可以像打电话或视频通话一样与AI进行聊天，Qwen也有自己的Her了。

更更重要的是，一向大方开源的千问，直接开源了背后的模型 Qwen2.5-Omni-7B（ Apache 2.0 许可），并发布了详细的技术报告！

做了OpenAI应该干的事！

Qwen Chat:https://chat.qwenlm.ai

GitHub:https://github.com/QwenLM/Qwen2.5-Omni

目前每天有10次体验机会：

图片

Qwen2.5-Omni-7B模型，它是一个 Omni（全能）模型。简单说，就是一个模型能同时理解文本、音频、图像、视频多种输入，并且能输出文本和音频。

与类似规模的单模态模型和封闭源模型（如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro）相比，Qwen2.5-Omni 在所有模态上都表现出强劲的性能。

图片

我们看一下官方Demo案例，感受下Qwen2.5-Omni-7B的强大。

Qwen2.5-Omni-7B可以成为绘画搭子，不仅成功识别了小姐姐正在画的吉他和毛绒熊，还能给出一些建议，提出可以画一个正在弹吉他的熊，让画面更加有趣：

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！

而且，AI还可以聆听团队成员的自我介绍，并在结束后回答“听力问题”，成功对应了特定成员的研究方向，并且还有记忆能力，可以回忆成员有没有戴眼镜等等：

阿里版“Her”上线即开源！7B模型太全能了，全面击败Gemini-1.5-pro！所有用户都能试玩！

目前Qwen提供了四款音色，分别是三个女声，和一款男声。

图片

评论区网友对千问的更新表达了惊喜，因为Qwen2.5-Omni-7B的开源，这周的模型发布变得更激烈、更精彩了。

图片

也有网友认为，提供“虚拟女友”的音色，不符合千问通用模型的“人设”。

图片

有网友在一手体验后，感觉功能复杂，虽然有娱乐性，但从技术上看没有做到极致，因此需要继续努力。

图片

核心架构：Thinker-Talker，从思考到交流

Qwen2.5-Omni 采用 Thinker-Talker 架构。Thinker 的功能类似大脑，负责处理和理解来自文本、音频和视频模式的输入，生成高级表示和相应的文本。

Talker 的功能就像人的嘴巴，以流式方式接收由 Thinker 生成的高级表征和文本，并流畅地输出离散的语音标记。思考者是一个变形解码器，并配有音频和图像编码器，以方便信息提取。相比之下，Talker 被设计为双轨自回归变换解码器架构。

在训练和推理过程中，Talker 直接从 Thinker 接收高维表示，并共享 Thinker 的所有历史上下文信息。因此，整个架构作为一个具有凝聚力的单一模型运行，实现了端到端的训练和推理。

图片

91.1% 准确率，性能远超 GPT-4 系列模型，谷歌推出多模态医学大模型 Med-Gemini

编辑 | 萝卜皮各种复杂的医疗应用给人工智能带来了巨大挑战：需要先进的推理、获取最新的医学知识以及对复杂的多模态数据的理解。Gemini 模型在多模态和长上下文推理方面具有强大的通用能力，为 AI 在医学领域应用提供了可能性。基于 Gemini 的核心优势，谷歌的研究人员推出了 Med-Gemini，这是一个功能强大的多模态模型系列，专门用于医学，能够无缝使用网络搜索，并且可以使用自定义编码器有效地针对新颖的模态进行定制。研究人员用 14 项医疗基准评估 Med-Gemini，在其中 10 项上建立了新的最先进（S

5/7/2024 6:43:00 PM

ScienceAI

谷歌发布 3 款 Gemini 实验 AI 模型：1.5 Pro 冲榜第二、1.5 Flash 从第 23 蹿升至第 6

谷歌 AI Studio 产品总监洛根・基尔帕特里克（Logan Kilpatrick）今天（8 月 28 日）在 X 平台发布推文，宣布推出 3 款 Gemini 实验性模型。AI在线附上谷歌本次推出的 3 款实验性 Gemini AI 模型如下：Gemini 1.5 Flash-8BGemini 1.5 Flash-8B 是 Gemini 1.5 Flash 的更小尺寸模型，拥有 80 亿参数，专为多模态任务而设计，包括大容量任务和长文本摘要任务。Gemini 1.5 Pro Exp-0827主要增强编程、复杂

8/28/2024 11:02:41 AM

故渊