Kimi 发布视觉思考模型 k1：试题拍照给出答题思考全过程

2024-12-16 09:48

月之暗面 Kimi 今日发布视觉思考模型 k1。该模型基于强化学习技术打造，原生支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。

月之暗面 Kimi 今日发布视觉思考模型 k1。该模型基于强化学习技术打造，原生支持端到端图像理解和思维链技术，并将能力扩展到数学之外的更多基础科学领域。

月之暗面官方表示，在数学、物理、化学等基础科学学科的基准能力测试中，初代 k1 模型的表现超过了 OpenAI o1、GPT-4o 以及 Claude 3.5 Sonnet。

AI在线从月之暗面官方获悉，Kimi 新模型发布即上线。k1 视觉思考模型已陆续上线最新版「Kimi 智能助手」的 Android 和 iPhone 手机 App 以及网页版 kimi.com。在最新版手机 App 或网页版 Kimi+ 页面找到「Kimi 视觉思考版」，即可拍照或传图体验。

「Kimi 视觉思考版」会完整呈现推理思维链 CoT，让用户不只看到答题结果，也能完整看到模型思索答案的全过程。

从模型训练的角度看，k1 视觉思考模型的训练分为两个阶段，先通过预训练得到基础模型，再在基础模型上进行强化学习后训练。k1 的基础模型重点优化了字符识别能力，在 OCRBench 上得到 903 分的（state-of-the-art）结果，在 MathVista-testmini、MMMU-val 和 DocVQA 基准测试集上分数分别为 69.1、66.7 和 96.9。

月之暗面表示，k1 的强化学习后训练在数据质量和学习效率方面做了进一步优化，在强化学习的规模化（scaling）上取得了新的突破。

此外，科学的模型能力基准测试方案是大模型行业面临的重要挑战之一。由于市面上缺乏针对基础科学学科的图形测试集，Kimi 模型研发团队自主构建了一个标准化的测试集 Science Vista，涵盖不同难度的数理化图片题目，且从分布上与实际用户需求较为匹配。该测试集将开放给全行业，用户可申请在许可范围内使用。

在内部测试中，月之暗面也发现了一些 k1 视觉思考模型存在的局限性，例如在分布外（out-of-distribution）的泛化、在更复杂问题上的成功率、在更多噪声场景的准确率、多轮问答效果等方面，有很大提升空间。在一些场景和泛化能力上，k1 模型与 OpenAI 的 o1 系列模型相比仍有差距。

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

2025 年 1 月 20 日 Kimi k1.5 正式发布，伴随着技术报告的公布，有网友表示：“这应该是全球范围内，除 OpenAI 之外的公司首次实现 o1 正式版的多模态推理性能了吧！ ”一时间，Kimi k1.5 成了话题王者。但在一个月后的 2 月 24 日，X 上出现了一篇关于 Kimi k1.5 的技术爆料帖，博主直言 k1.5 所用到的强化学习算法，其实是借鉴了自己在 24 年 5 月提出的一种名为 SPPO 的技术。

2/27/2025 2:22:00 PM

郑佳美

一口气读完甄嬛传剧本、大部头医书：月之暗面200万字上下文Kimi开启内测

半年时间，月之暗面把 AI 模型支持的上下文长度提升了一个数量级，实现了 200 万字上下文的「无损压缩」。一个能读 200 万字的 AI 助手是什么概念？这意味着，它可以一口气读完整个《甄嬛传》剧本，然后和你讨论剧情。或者一口气读完一本厚厚的中医诊疗手册，给你提出诊疗建议。对于人类来说，成为某个领域的专家可能需要 10000 个小时的学习，但对于这个 AI 来说，只需要 10 分钟就够了。将甄嬛传全集几十万字的剧本传给 AI 助手，然后提问剧本中有哪些细节表明甄嬛的孩子是果郡王的。它能在不同时间段、各个场景的故事

3/19/2024 10:47:00 AM

机器之心

AI在用| 又是一年毕业季，给你找了个论文搭子Kimi+

机器之能报道编辑：山茶花以大模型、AIGC为代表的人工智能浪潮已经在悄然改变着我们生活及工作方式，但绝大部分人依然不知道该如何使用。因此，我们推出了「AI在用」专栏，通过直观、有趣且简洁的人工智能使用案例，来具体介绍AI使用方法，并激发大家思考。我们也欢迎读者投稿亲自实践的创新型用例。近日，月之暗面的 Kimi 迎来大更新，不仅 Logo 变得更卡通俏皮，还上线了「Kimi 」功能。所谓「Kimi 」，就是一个 AI 私人助理，有点类似于 OpenAI 的 GPTs，可以为用户提供更多个性化的 AI 服务，例

5/7/2024 6:42:00 PM

机器之能

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o 韩国初创公司 RLWRLD 获 1480 万美元融资，致力于机器人基础模型开发本地部署DeepSeek+DiFy平台构建智能体应用击败DeepSeek-R1！豆包新推理模型仅用前者参数量1/3！还将开源两个基准，瞄准通用推理能力！谷歌 Gemini AI 新功能 Circle Screen 曝光：圈选截屏特定区域，实现精准搜索

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达神经网络腾讯计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人驾驶 xAI 文本搜索字节跳动大语言模型 Copilot Claude 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉 DeepMind 训练

顶部

Kimi 发布视觉思考模型 k1：试题拍照给出答题思考全过程

相关资讯

推特热帖：k1.5 很牛，因为借鉴了 UCLA 与 CMU 合作团队的这项技术

一口气读完甄嬛传剧本、大部头医书：月之暗面200万字上下文Kimi开启内测

AI在用| 又是一年毕业季，给你找了个论文搭子Kimi+