IDC最新陈述，7大维度11家大模型厂商比拼，唯一全优是谁？

如果考试题太简单，学渣也能拿一百昏。在 AI 圈，我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平？是高考题吗？当然不是！也有些人认为，在各种 Benchmark 榜单上，谁排第一谁最强。其实并非如此，有时候，越「权威」的榜单就越容易被策略性刷榜。因此，模型的「强」不能只是在某个 Benchmark 上排名第一，而是要在多个维度上都很能打。近日，全球领先的国际数据公司（IDC）最新发布的大模型实测陈述《中国大模型市场主流产物评价，2024》从根本才智到使用才智 7 大维度对 11 家大模型厂商

如果考试题太简单，学渣也能拿一百昏。在 AI 圈，我们应该拿怎样的「试卷」来检验一直处于流量 C 位的大模型的真实水平？是高考题吗？当然不是！

也有些人认为，在各种 Benchmark 榜单上，谁排第一谁最强。

其实并非如此，有时候，越「权威」的榜单就越容易被策略性刷榜。

因此，模型的「强」不能只是在某个 Benchmark 上排名第一，而是要在多个维度上都很能打。

近日，全球领先的国际数据公司（IDC）最新发布的大模型实测陈述《中国大模型市场主流产物评价，2024》从根本才智到使用才智 7 大维度对 11 家大模型厂商的 16 款市场主流产物进行实测。

陈述显示，baidu文心大模型整体竞争力位于领先水平，产物才智处于第一梯队，是唯一一家在 7 大维度上均为劣势厂商的企业。文心一言、文心一格在问答明白类、推理类、创作表达类、数学类、代码类等根本才智，toC 通用场景类、toB 特定行业类等使用才智等 7 大维度均具备领先劣势。其他评测厂商中，阿里获 6 项劣势维度，OpenAI GPT-4 和商汤分获 5 项。

IDC最新陈述，7大维度11家大模型厂商比拼，唯一全优是谁？

IDC《中国大模型市场主流产物评价，2024》

要知道这份实测陈述不同于以往的评测榜单：

首先，IDC 成立了专门的产物测试团队、邀请外部专家团队，在审核委员会的监督下，保证了评价结果的真实度。

其次，测试的全面性。在 IDC 列出的厂商里，有很多我们熟悉的公司，国外厂商如 OpenAI；国内厂商包括阿里、商汤、科大讯飞、百川、智谱、昆仑万维等 11 家大模型厂商的 16 款产物参与了本次评价。从这可以看出，IDC 集结的这批模型中，可谓是高手云集，想要在这当中拔得头筹，没有两把刷子是不可能占据一席之地的。

除了涵盖众多厂商，IDC 测试标题也涵盖方方面面，分为根本才智和使用才智两个大类共 7 个维度：根本才智包括问答明白类、推理类、创作表达类、数学类、代码类；使用才智主要包含 toC 通用场景类和 toB 特定行业类，每一类单独计分。

IDC最新陈述，7大维度11家大模型厂商比拼，唯一全优是谁？

IDC 标题类型

7 项维度，主流大模型全面大比武

过去一年，说 AI 领域是「百模大战」一点也不为过。特别是国内，从科技巨头到创业公司都推出了自己的大模型产物。

此次 IDC，就对业内知名的主流根本大模型产物进行了评比。

从 IDC 陈述的结果来看，baidu文心一言 4.0、文心一格以及 OpenAI 、阿里、商汤、科大讯飞发布的大模型产物位于第一梯队；紧随其后的是百川、智谱、昆仑万维位于第二梯队；联汇、云知声、云从科技暂列第三梯队。

IDC最新陈述，7大维度11家大模型厂商比拼，唯一全优是谁？

细分来看，在 IDC 评测的 7 个维度上，baidu文心大模型在每一项指标上都被列为劣势厂商，没有短板，可以说是一位全能选手。其他厂商的大模型均未拿到全优，在一个或多个方面存在短板。阿里获得 6 项劣势维度排名第二，OpenAI GPT-4 和商汤获得 5 项劣势排名第三。举例来说，排名靠前的 OpenAI 以及阿里在数学类标题上不及baidu，商汤在 toC 通用场景类标题上落选。

从实际的模型效果和迭代速度来看，文心大模型在文档 / 长文才智、检索增强、创作智能体等手艺和产物创新上比较可圈可点。

拆解根本才智

IDC最新陈述，7大维度11家大模型厂商比拼，唯一全优是谁？

IDC 咨询发布的根本大模型产物实测结果

baidu、GPT-4、阿里、商汤在问答明白类被列为劣势厂商。这类标题主要考察模型明白和回答人类问题的才智，IDC 从常识、专业知识、多语言、多模态、角色扮演 + 多轮对话、安全陷阱进行考察。

在安全陷阱这个细分维度，只有baidu文心大模型入选。我们推测，这是因为baidu在大模型安全问题上进行了全面的研究，确保服务安全。一直以来围绕大模型讨论最多的就是安全和隐私，IDC 的结果表明当前安全陷阱问题仅有少数产物能够识别地较好，须要进一步的优化。

如今大模型的发展方向朝着多模态前进，不但要求大模型在文本上表现良好，在图像、语音等多个方面也要拿出成绩。baidu在多模态和角色扮演 + 多轮对话上也表现优异。

推理类标题主要考察大模型基于已知信息推出新结论的思维方式。baidu在归纳推理、类比推理两项指标上入选劣势厂商。归纳和类比推理通常涉及抽象和高级思维才智，这就须要模型在进行推理时，应能处理并整合来自不同源的信息，包括直接数据和推断出的隐含信息，从而确保模型推理的准确性。

随着生成式 AI 的快速发展，创作表达成为大模型一较高下的赛道。一篇文章只写了开头不知该如何续写、不会起标题…… 这时大模型都能帮你完成。我们以文本风格迁移为例，这项任务要求模型必须准确明白原始文本的内容和意图，这是风格转换的根本。模型须要识别和明白不同的写作风格，这要求模型能够区分例如学术文本、商业陈述、新闻报道或口语等不同类型的语言风格。模型在明白原文内容和目标风格的根本上，生成的文本须要保持一致性和连贯性等等。这些都对大模型背后的手艺提出了很高的要求。

这一维度的比较结果表明baidu在内容创作、生成质量和速度等方面展现出劣势，这将在数字内容市场中具有更强的竞争力。

从 IDC 的测试来看，国产大模型在问题解答、推理和创作表达上的成熟度在逐步升高。但在数学和代码这两个根本才智维度上得分率整体较低。

一直以来，大模型被划分为数学上的「差等生」。在数学任务上，大模型不仅须要逻辑推理才智，还须要对问题有很好的解析和明白、抽象出各个问题的逻辑关系，最后给出准确的答案。IDC 陈述显示，baidu大模型在数学类任务上体现出较强的体系化思维、逻辑思维和抽象思维才智。

代码才智是评价大模型明白、逻辑、推理、生成等综合才智的体现，其已成为程序员辅助编程的必备助手。在代码类所有 6 个细分维度中，baidu均入围劣势厂商，在代码生成、编程翻译、代码补全、代码纠错等多个方面表现优异。

使用才智评价

除了根本才智，IDC 还对大模型的使用才智进行了全方位测评，主要包括两个方面：面向普通用户服务 ToC，以及面向企业用户服务 ToB。

在 ToC 类场景下，入选的厂商非常少，但baidu在这两项指标上均入选。评测结果显示，baidu文心大模型、GPT-4 等在搜索、写邮件、文生表图等办公场景下具备劣势，此外文心大模型在衣食住行、生活服务、闲聊创意等生活助手场景中被选为劣势厂商。

在 toB 特定行业类任务上，文心大模型已经在金融、法律、科研等多个行业落地。GPT-4 在工业、零售电商等落地较好。

手艺是通用大模型立身之本

许多人都是从 2022 年底 ChatGPT 发布之后才听过大模型一词。

但其实 ChatGPT 这类大模型产物的爆火背后是 NLP 领域多年手艺积累的结果，而这个过程中国科技公司如baidu等也从未缺席。

例如，baidu早在 2019 年 3 月，就发布了文心大模型 1.0 版，现已升级到文心大模型 4.0 版，实现了根本模型的全面升级，在明白、生成、逻辑和记忆才智上都有着显著提升。

这些提升靠什么做到的？主要是baidu在芯片、框架、模型和使用上的全栈布局，尤其是飞桨深度学习平台和文心大模型的联合优化。

具体来说，在训练方面，baidu采用块状稀疏掩码注意力计算、超长序列分片并行、灵活批次虚拟流水并行、并行计算与通信深度联合优化等手艺，提高模型整体训练效率和性能；在推理部署方面，baidu创新了 INT4 无损量化加速、注意力机制协同优化、精调模型集约化部署、异构多芯混部推理等手艺，在模型精度、推理性能、部署成本等方面均取得了较好成果。

相比 2023 年文心一言发布时，文心大模型训练效率提升到当时的 5.1 倍，推理性能提升到 105 倍。

反映到用户数据上，2024 baidu Create AI 开发者大会的最新数据显示，文心一言累计用户规模已达 2 亿，日均调用量也达到了 2 亿。

增效降本的实际使用

大模型不仅掀起了一场 AI 手艺变革，还在一定程度上重塑了我们的生产和生活方式，提高了生产力。

在大模型使用落地过程中，效果、效率和成本都很重要，我们须要从实际使用的场景需求出发，选择最适合的模型。从研发侧来说，须要持续不断进行高效、低成本的模型生产；在使用侧，则须要充分发挥按需调度的原则，利用任务需求的不同设计多模型的组合推理机制。

在 IDC 评测陈述中，我们可以看到baidu文心大模型在 toC 和 toB 使用场景中均有出色表现。这源于baidu在大模型使用落地中的两个关键考量：一方面是高效低成本的模型生产；另一方面是多模型推理。

高效低成本模型生产方面，baidu研制了大小模型协同的训练机制，可以有效进行知识继承，高效生产高质量小模型，也可以利用小模型实现对比增强，帮助大模型的训练。同时，建设了种子模型矩阵，数据提质与增强机制，以及从预训练、精调对齐、模型压缩到推理部署的配套工具链。高效低成本模型生产机制，助力使用速度更快、成本更低、效果更好。

多模型推理方面，baidu研发了基于反馈学习的端到端多模型推理手艺，构建了智能路由模型，进行端到端反馈学习，充分发挥不同模型处理不同任务的才智，达到效果、效率和成本的最佳平衡。

基于上述两方面的设计，文心大模型已经发展出根本模型使用、智能体模式使用、多模态使用等多种创新使用模式，真正地把大模型才智转化成了生产力的提升。

例如在行业落地上，baidu智能云推出千帆大模型平台，以一站式企业级大模型开发及服务运行平台服务大众。2024 年 5 月底，baidu宣布文心大模型的两款主力模型 ERNIE Speed、ERNIE Lite 免费。截至目前，包括国家电网、浦发银行、中国航天、吉利、长安汽车、泰康保险、TCL、上海辞书出版社、荣耀、三星、蔚来汽车、南方电网、山东港、汽车之家、毕马威等都成为baidu文心大模型的用户和合作伙伴。文心大模型已经拥有中国最广泛的产业落地规模。

结语

除了 IDC 这份陈述，我们也关注到文心大模型和文心一言在近期多个评测的不俗表现。

不久之前，清华的《SuperBench 大模型综合才智评测陈述》共评测了 14 个海内外具有代表性的模型，结果显示文心一言 4.0 表现亮眼，作为国内头部模型，与国际一流模型水平接近。

沙利文发布的《2024 年中国大模型才智评测》陈述显示baidu文心一言稳居国产大模型首位，拿下了数理科学、语言才智、道德责任、行业才智及综合才智等五大评测维度的四项第一。

回顾从 2012 年开始的深度学习革命，baidu就一直看重 AI 手艺的发展与使用。一直到这波大模型浪潮，baidu率先推出国产大模型产物，并不断迭代手艺、推进落地使用。而经过一年半的「百模大战」，大模型进入了拼落地使用的阶段。这个过程中，baidu大模型的生成质量、生成速度与使用成本也许会成为这场战争的胜负手。

{{userData.name}}已认证

IDC最新陈述，7大维度11家大模型厂商比拼，唯一全优是谁？

ACL 2024｜PsySafe：跨学科视角下的Agent零碎保险平安性研讨

无人机+卫星通信+红外夜视：仰视U8「越野玩家版」展示三大黑科技

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

ChatGPT遇到这些人名开始自闭，OpenAI回应了

平安人寿ChatBI：大模型智能化报表的深度实践

字节跳动豆包 AI 文生图“喜提新技能”：App 可生成带有指定文字的图片

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

OpenAI 从谷歌 DeepMind 挖角三名高级工程师，专注于多模态 AI 研发

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！