击败Gemini-1.5-Pro、GPT-4V，沉着大模型多模态才能跻身寰球前三

近日，云从科技沉着大模型在综合评测权威平台 OpenCompass 的多模态评测规模中取得重大进展。最新评测结果显示，云从科技的沉着大模型在该系统中的平均得分为 65.5，这一成果使得沉着大模型跻身寰球前三，超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v，仅次于 GPT-4o（69.9）和 Claude3.5-Sonnet（67.9）。而在国内市场，沉着大模型的成果也超过了 InternVL-Chat（61.7）和 GLM-4V（60.8），排名首位。

近日，云从科技沉着大模型在综合评测权威平台 OpenCompass 的多模态评测规模中取得重大进展。

最新评测结果显示，云从科技的沉着大模型在该系统中的平均得分为 65.5，这一成果使得沉着大模型跻身寰球前三，超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v，仅次于 GPT-4o（69.9）和 Claude3.5-Sonnet（67.9）。

而在国内市场，沉着大模型的成果也超过了 InternVL-Chat（61.7）和 GLM-4V（60.8），排名首位。

击败Gemini-1.5-Pro、GPT-4V，沉着大模型多模态才能跻身寰球前三

图 1：OpenCompass 多模态榜单

OpenCompass 大模型封闭评测系统是上海人工智能实验室推出的完整开源可复现的评测框架。OpenCompass 多模态评测方面采用了 8 个具有代表性的数据集，从多种视角客观量化多模态大模型的才能，评估维度覆盖目标检测、文字鉴别、动作鉴别、图像理解和关系推理、艺术与设计、商业、科学、健康与医学、人文与社会科学、技巧与工程、数学推理等多个方面。

击败Gemini-1.5-Pro、GPT-4V，沉着大模型多模态才能跻身寰球前三

图 2：沉着大模型 – 2.0 多模态才能示例

在本次测评中，沉着大模型在其中的 6 个数据集显示优异，排名国内第一（MMbench、MMStar、MathVista、HallusionBench、AI2D、OCRBench），尤其是在 OCRBench 测试集上以取得寰球最高的 827 分（总分为 1000 分），且高于第二名 GLM-4v 13 分，进一步提升沉着大模型在文本鉴别、以文本为中心的视觉问答、面向文档的视觉问答、关键信息提取等业务场景下的适用性。

击败Gemini-1.5-Pro、GPT-4V，沉着大模型多模态才能跻身寰球前三