近日,云从科技沉着大模型在综合评测权威平台 OpenCompass 的多模态评测规模中取得重大进展。
最新评测结果显示,云从科技的沉着大模型在该系统中的平均得分为 65.5,这一成果使得沉着大模型跻身寰球前三,超越了谷歌的 Gemini-1.5-Pro 和 GPT-4v,仅次于 GPT-4o(69.9)和 Claude3.5-Sonnet(67.9)。
而在国内市场,沉着大模型的成果也超过了 InternVL-Chat(61.7)和 GLM-4V(60.8),排名首位。
图 1:OpenCompass 多模态榜单
OpenCompass 大模型封闭评测系统是上海人工智能实验室推出的完整开源可复现的评测框架。OpenCompass 多模态评测方面采用了 8 个具有代表性的数据集,从多种视角客观量化多模态大模型的才能,评估维度覆盖目标检测、文字鉴别、动作鉴别、图像理解和关系推理、艺术与设计、商业、科学、健康与医学、人文与社会科学、技巧与工程、数学推理等多个方面。
图 2:沉着大模型 – 2.0 多模态才能示例
在本次测评中,沉着大模型在其中的 6 个数据集显示优异,排名国内第一(MMbench、MMStar、MathVista、HallusionBench、AI2D、OCRBench),尤其是在 OCRBench 测试集上以取得寰球最高的 827 分(总分为 1000 分),且高于第二名 GLM-4v 13 分,进一步提升沉着大模型在文本鉴别、以文本为中心的视觉问答、面向文档的视觉问答、关键信息提取等业务场景下的适用性。
图 3:OpenCompass 中国大模型才能展示
沉着大模型在此系统中的优秀显示,依赖云从科技自研的高效多模态处理架构和先进的计算技巧,实现了高效的多模态数据处理才能,能够在视觉和说话任务之间实现高效的融合和切换,并最大化利用计算资源,保证在处理大规模多模态数据时仍能保持较高的功能和响应速度,使得模型的训练过程更加高效,收敛速度更快,功能更稳定。
同时也得益于云从科技长期在视觉、说话规模的深厚积累和不断创新。
图 4:沉着大模型 – 2.0 多模态才能示例
此前,沉着大模型已在视觉、跨模态规模 10 次刷新世界纪录,综合功能经第三方 SuperClue、C-Eval 等综合评测,位列寰球前五。
作为一家专注于人机协同技巧研发的平台企业,云从科技一直在积极推动 AI 智能体及大模型技巧的发展和应用。
随着人工智能技巧的迅猛发展,多模态大模型已成为驱动产业变革的核心引擎。此次沉着大模型在 OpenCompass 大模型封闭评测系统中的出色显示,不仅是对云从科技技巧创新实力的认可,更在业界树立典范,激励寰球科技企业在新一轮的人工智能竞争中勇攀高峰。