Kimi版o1实装上线,这里是我们的一手测试↑

Kimi新模型来袭,且发布即上线可用! 就在数学模型k0-math刚发布后没几天,视觉思考模型k1就来了,多项思考推理测试超越Open AI o1。 官方表示,基于强化学习,k1原生支持端到端图像理解和思维链技术。

Kimi新模型来袭,且发布即上线可用!

就在数学模型k0-math刚发布后没几天,视觉思考模型k1就来了,多项思考推理测试超越Open AI o1。

图片

官方表示,基于强化学习,k1原生支持端到端图像理解和思维链技术

换句话说,k1能够深入图片信息抽丝剥茧,层层推理,由此解锁了包括几何图形题在内更加全面的数学能力。

图片

模型思索答案的全过程,belike:

图片

并且k1的思考能力不仅仅局限于数学领域,正所谓“学好数理化,走遍天下都不怕”。

在官方晒出的数理化基准测试中,Kimi k1-preview表现全面超越OpenAI o1、GPT-4o、Claude 3.5 Sonnect。

图片

这次Kimi新模型的发布还是直接上线可玩的那种,APP或是网页版找到“Kimi视觉思考版”即可上传图片点击使用。

图片

话不多说,这就赶紧来实测一波~

数理化第一波实测

先来一道考研数学真题小试牛刀,这道题目涉及的知识点包括曲面积分、高斯定理等:

图片

之前在量子位的实测中,这道题难住了GPT-4o。

而Kimi视觉思考版经过一步步详细推理,第一次就给出了正确答案。

图片

它自己也表示进行了检查没有错误,“对这个答案非常有信心”。

图片

再来一道曾经测试过o1的数学概论题。

一个外星人来到地球后,第1天有相等的可能选择以下四件事中的一件完成:

自我毁灭;分裂成两个外星人;分裂成三个外星人;什么都不做。

此后每天,每个外星人均会做1次选择,且彼此之间相互独立,求地球上最终没有外星人的概率。

Kimi视觉思考版也一次就做对了:

图片

数学能力看完后,再来小试一下物理题。

下面这道题是大学物理中的光学题:

在双缝干涉实验中,波长λ=550nm的单色平行光垂直入射到缝间距a=2×10⁻⁴m的双缝上,屏到双缝的距离D=2m。求中央明纹两侧的两条第10级明纹中心的间距。

Kimi视觉思考版成功回答对。

而且其实它早早就给出了正确答案,但还是严谨地用不同的方法反复验证确认后给出答案。

图片

最后再来一道“化学题”(doge):

Candy, Happy, Bacon, Scary, Brain, House

Which is the odd one?

Hint: Chemistry

Kimi视觉思考版在推理过程中几经曲折,但最后答案还是正确的(happy)。

图片

除了发布新模型,k1背后的的技术大方向也被月之暗面公开了。

基于强化学习的新一代推理模型

据介绍,k1是他们基于强化学习技术的新一代模型,称为思考模型,真正意义上实现了端到端的图像理解和思考能力。

从模型训练上来看,分为两个阶段:先通过预训练得到基础模型,再在基础模型上进行强化学习后训练。

最为关键的是,k1遵循强化学习Scaling Law,在强化学习后训练在数据质量和学习效率方面做了进一步优化。

传统基于文本的推理模型,或者不支持图像信息输入,或者需要借助外部OCR/视觉模型进行转换,效果有明显损失。

而Kimi视觉思考版由于是原生的端到端视觉推理模型,视觉+推理,可直接理解图片信息并进行深度推理。

“噪声”场景,即拍摄图片模糊、手写字迹潦草等情况下,性能损失幅度也较小。

图片图片

既然如此,把思路打开,除了让它做数理化推理题,或许还可以拿一堆图让它帮忙推理出任何我想知道的内容。

比如把朋友的“歌单”截图发给它,让它给我分析一下这位朋友的MBTI。

你还别说,k1的推理有理有据,先理解MBTI是什么,然后像侦探似的仔细分析图片中的曲目并进行分类,接着寻找这些歌手、风格之间的相似之处。

它甚至还会“平衡矛盾特征”,即使给出了猜测还会多加一步“验证”。

图片图片

最终才会给出一个比较合理的猜测。

图片

再比如,或者还可以拿出这么一份字迹潦草模糊的手写稿,让它帮我推理出这是谁写的、笔记内容在讲什么。

图片

思路再次被打开。

图片图片

最后不得不说的是,最近这几天国内外大模型新进展真不少,前有谷歌,现在还有Kimi,OpenAI“圣诞节直播12天”可谓是被一而再再而三的“狙击”了。

你觉得Kimi新模型的表现如何?感兴趣的童鞋不妨亲自上手考考它~

相关资讯

时序预测再出新范式!华东师大提出DUET:「双向聚类」新设计,性能刷新SOTA!| KDD 2025

多变量时间序列预测(MTSF)在金融投资、能源管理、天气预测和交通优化等领域具有重要应用。 然而,现实中的时间序列通常面临两大挑战:1. 时间模式的异质性,即由于外部因素的影响,真实时间序列往往表现出非平稳性(Temporal Distribution Shift, TDS),导致其分布和模式发生显著变化;2.

Deepseek新模型意外曝光!编程跑分一举超越Claude 3.5 Sonnet

还没等到官宣,Deepseek-v3竟意外曝光了? 据Reddit网友爆料,v3已在API和网页上发布,一些榜单跑分也新鲜出炉。 在Aider多语言编程测试排行榜中,Deepseek-v3一举超越Claude 3.5 Sonnet,排在第1位的o1之后。

Databricks 推出 1320 亿参数大语言模型 DBRX,号称“现阶段最强开源 AI”

Databricks 近日在推出了一款通用大语言模型 DBRX,号称是“目前最强开源 AI”,据称在各种基准测试中都超越了“市面上所有的开源模型”。IT之家从官方新闻稿中得知,DBRX 是一个基于 Transformer 的大语言模型,采用 MoE(Mixture of Experts)架构,具备 1320 亿个参数,并在 12T Token 的源数据上进行预训练。研究人员对这款模型进行测试,相较于市场上已有的 LLaMA2-70B、Mixtral、Grok-1 等开源模型,DBRX 在语言理解(MMLU)、程式设