备受瞩目的国内人工智能公司 Moonshot AI (月之暗面) 近日宣布,正式开源发布了两款全新的视觉语言模型——Kimi-VL 与 Kimi-VL-Thinking。这两款模型以其轻量级的架构和卓越的多模态理解与推理能力,在多个关键基准测试中超越了包括 GPT-4o 在内的众多大型模型,引发行业广泛关注。
轻巧身躯,蕴藏澎湃动力
与动辄拥有数百亿甚至千亿参数的主流大模型不同,Kimi-VL 和 Kimi-VL-Thinking 均采用了 MoE(Mixture-of-Experts,混合专家)架构,其激活参数仅约 30亿。这意味着它们在运行和部署上更加高效,对计算资源的要求更低。然而,令人惊讶的是,即便在如此轻量级的架构下,这两款模型依然在多项基准测试中取得了令人瞩目的优异成绩,充分展现了其强大的推理能力。
多模态智能再升级:数学推理与智能体操作表现亮眼
Kimi-VL 系列模型在多模态推理和智能体能力方面表现突出。在考验模型多模态数学推理能力的 MathVision 基准测试中,Kimi-VL 取得了 36.8% 的成绩,这一表现足以媲美参数量远超其十倍的大型模型。
更令人印象深刻的是,在评估智能体操作能力的 ScreenSpot-Pro 任务上,Kimi-VL 的得分达到了 34.5%。这表明该模型在理解复杂用户界面并执行相应操作方面拥有出色的潜力,为未来开发更智能的人机交互应用奠定了基础。
高清视野:原生支持高分辨率图像处理
得益于 MoonViT 架构,Kimi-VL 系列模型具备强大的图文识别与理解能力。在 OCRBench 基准测试中,其得分高达 867,充分证明了其在处理高分辨率图像和识别复杂文本方面的卓越性能。这一特性对于处理包含大量图像和文档信息的应用场景至关重要。
超长记忆:轻松驾驭长上下文理解
超长上下文理解能力是 Kimi-VL 系列模型的另一大亮点。它们支持高达 128K tokens 的上下文输入。这意味着模型可以同时处理更长的文档、视频等复杂长文本信息,并进行更深入的理解和分析.
在长文档理解测试 MMLongBench-Doc 中,Kimi-VL 取得了 35.1% 的成绩,而在长视频理解测试 LongVideoBench 上,更是获得了高达 64.5% 的高分。这使得 Kimi-VL 系列模型在文档问答、视频分析等需要处理大量上下文信息的场景中具备巨大的应用潜力.
开源共享,共创多模态智能未来
Moonshot AI 强调,此次开源发布 Kimi-VL 和 Kimi-VL-Thinking 只是迈向通用多模态智能的一小步。他们希望通过开源的方式,吸引更多社区开发者参与到模型的应用开发中,共同探索 Kimi-VL 系列模型在文档问答、界面操作、图文理解、视频分析等领域的无限可能性。
目前,开发者可以通过以下方式获取 Kimi-VL 系列模型的相关信息和代码:
GitHub: https://github.com/MoonshotAI/Kimi-VL
https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct