百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

作者：清源

2025-01-26 03:32

官方宣称，其在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5 的表现均优于 GPT-4omini；在多模态医疗应用领域，其具备更突出的领先优势。

百川智能今日宣布，Baichuan-Omni-1.5 开源全模态模型正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解，还具备文本和音频的双模态生成能力。

官方宣称，其在视觉、语音及多模态流式处理等方面，Baichuan-Omni-1.5 的表现均优于 GPT-4o mini；在多模态医疗应用领域，其具备更突出的领先优势。

Baichuan-Omni-1.5 不仅能在输入和输出端实现多种交互操作，还拥有强大的多模态推理能力和跨模态迁移能力。

百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

其在音频技术领域采用了端到端解决方案，可支持多语言对话、端到端音频合成，还可实现自动语音识别、文本转语音等功能，且支持音视频实时交互。

据介绍，在视频理解能力方面，Baichuan-Omni-1.5 通过对编码器、训练数据和训练方法等多个关键环节进行深入优化，其整体性能大幅超越 GPT-4o-mini。

百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

模型结构方面，Baichuan-Omni-1.5 的模型输入部分支持各种模态通过相应的 Encoder / Tokenizer 输入到大型语言模型中。

而在模型输出部分，Baichuan-Omni-1.5 采用了文本-音频交错输出的设计，通过 Text Tokenizer 和 Audio Decoder 同时生成文本和音频。

百川智能构建了一个包含 3.4 亿条高质量图片 / 视频-文本数据和近 100 万小时音频数据的庞大数据库，且在 SFT 阶段使用了 1700 万条全模态数据。

AI在线附开源地址如下：

GitHub：

https://github.com/baichuan-inc/Baichuan-Omni-1.5

模型权重：

Baichuan-Omni-1.5：
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5
Baichuan-Omni-1.5-Base：
https://huggingface.co/baichuan-inc/Baichuan-Omni-1d5-Base
https://modelers.cn/models/Baichuan/Baichuan-Omni-1d5-Base

技术报告：

https://github.com/baichuan-inc/Baichuan-Omni-1.5/blob/main/baichuan_omni_1_5.pdf

百川智能发布超千亿大模型Baichuan 3，中文评测水平超GPT-4

1 月 29 日，百川智能正式发布千亿参数的大语言模型 Baichuan 3。在多个权威通用能力评测如 CMMLU、GAOKAO 和 AGI-Eval 中，Baichuan 3 都展现了出色的能力，尤其在中文任务上更是超越了 GPT-4。而在数学和代码专项评测如 MATH、HumanEval 和 MBPP 中同样表现出色，证明了 Baichuan 3 在自然语言处理和代码生成领域的强大实力。不仅如此，其在对逻辑推理能力及专业性要求极高的 MCMLE、MedExam、CMExam 等权威医疗评测上的中文效果同样超过了

1/29/2024 2:33:00 PM

新闻助手

百川行业首创领域自约束训练方案，Baichuan4-Finance金融场景能力领先GPT-4o近20%

12 月 23 日，百川智能发布全链路领域增强大模型 Baichuan4-Finance。在高质量金融数据的基础上，通过行业首创的领域自约束训练方案，Baichuan4-Finance 实现了金融能力和通用能力同步提升的效果，极大提高了金融场景的整体可用性。其金融专业能力和场景应用能力大幅领先 GPT-4o，在中国人民大学财政金融学院新近发布的评测体系 FLAME 以及国内主流开源金融评测基准 FinancelQ 上均登上榜首。

12/23/2024 10:34:00 AM

新闻助手

突发！百川智能两位联合创始人出走，一位正在走离职手续

出品 | 51CTO技术栈（微信号：blog51cto）刚刚收到消息，大模型六小虎之一的百川智能高层出现了很大的变动——两位联合创始人被媒体曝出了离职创业的消息。其中，联合创始人焦可已经离职，另一位联合创始人陈炜鹏也将离职，目前还在走内部流程。另据知情人士称，焦可和陈炜鹏两人都已经分别开始AI领域的创业。

3/17/2025 3:59:19 PM

资讯热榜

企业级模型推理部署工具vllm使用指南 - 部署最新deepseek-v3-0324模型上海AI实验室开源InternVL3系列多模态大型语言模型 50组多风格提示词，全面测评Midjourney V7生图效果！全日程揭晓！ICLR 2025论文分享会我们北京见斯坦福2025 AI指数出炉！中美AI对决差距仅剩0.3%，DeepSeek领衔 5分钟直出46页论文！谷歌Deep Research完爆OpenAI，最强Gemini 2.5加持击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！ ChatGPT重大更新，能翻出所有历史对话，网友被AI聊破防了

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D AI设计 Anthropic 机器学习 GPU 开发者场景华为预测伟达 Transformer 百度深度学习苹果模态 AI视频驾驶文本 xAI 搜索人形机器人大语言模型 Copilot 神器推荐 LLaMA 字节跳动具身智能 Claude 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

相关资讯

百川智能发布超千亿大模型Baichuan 3，中文评测水平超GPT-4

百川行业首创领域自约束训练方案，Baichuan4-Finance金融场景能力领先GPT-4o近20%

突发！百川智能两位联合创始人出走，一位正在走离职手续