Kimi 多模态图片理解模型 API 发布,1M tokens 定价 12 元起

Vision 模型具备图像识别能力,能够识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象。
感谢月之暗面今日发布了 Kimi 多模态图片理解模型 API,全新多模态图片理解模型 moonshot-v1-vision-preview(以下简称“Vision 模型”)完善了 moonshot-v1 模型系列的多模态能力。

模型能力说明

图像识别

Vision 模型具备图像识别能力,能够识别出图像中的复杂细节和细微的差别,无论是食物还是动物,能够区分出相似但又不相同的对象。

下图示例中,官方拼凑了 16 张相似的人眼较难区分的蓝莓松饼和吉娃娃图片,由 Vision 模型来识别并按顺序标记图片类型,无论是蓝莓松饼还是吉娃娃,模型都能精确地区分和识别

图片

文字识别和理解

Vision 模型具备高级图像识别能力,在 OCR 文字识别和图像理解场景中,比普通的文件扫描和 OCR 识别软件更加准确,例如收据单 / 快递单等潦草的手写内容都可以准确识别

图片

以这张《某学生期末考试成绩》柱状图为例,官方让模型提取分析考试成绩,并从美学风格的角度分析一下该柱状图。Vision 模型也能够精准地识别出柱状图中每个科目名称对应的分数数值并做分数对比,同时可以识别出该柱状图的样式格式和颜色等。

图片

模型计费

Vision 模型实行按量计费方式,单张图片按 1024 tokens 合并计算在 Input 请求的 tokens 用量中,模型调用的价格根据选择的模型而不同,AI在线附具体区分如下:

模型计费单位价格
moonshot-v1-8k-vision-preview1M tokens¥12.00
moonshot-v1-32k-vision-preview1M tokens¥24.00
moonshot-v1-128k-vision-preview1M tokens¥60.00

模型限制说明

Vision 视觉模型支持的特性包括:

    • 多轮对话

    • 流式输出

    • 工具调用

    • JSON Mode

    • Partial Mode

以下功能暂未支持或部分支持:

    • 联网搜索:不支持

    • Context Caching:不支持创建带有图片内容的 Context Cache,但支持使用已经创建成功的 Cache 调用 Vision 模型

    • URL 格式的图片:不支持,目前仅支持使用 base64 编码的图片内容

其他平台更新

  • 支持组织项目管理功能

  • 支持一个企业实体认证多账号

  • 增加 File 文件资源管理功能:直观管理查看文件资源

  • 优化资源管理列表鼠标悬浮复制

  • Context Caching 功能已放开给全量用户

  • Cache 续期不再收取创建的费用

相关资讯

过年了!Kimi深夜炸场:满血版多模态o1级推理模型!OpenAI外全球首次!Jim Fan:同天两款国产o1绝对不是巧合!

编辑 | 伊风出品 | 51CTO技术栈(微信号:blog51cto)昨晚十点,Kimi弹了条推送。 大晚上的,他们就这么波澜不惊地发了一个SOTA 模型出来! 就是这个 k1.5 多模态思考模型,性能实现有多逆天呢:在 short-CoT 模式下, Kimi k1.5 的多项能力,大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%;在 long-CoT 模式下,Kimi k1.5 的数学、代码、多模态推理能力,也达到长思考 SOTA 模型 OpenAI o1 满血版的水平!

专访纽约城市大学田英利教授:用多通道、多模态的方法「看懂」手语

与聋哑人交流,是一件成本很高的事情。 首先要看得懂手语,其次是会打手语。 在全球任何一个国家,手语都被归属为一门“小语种”。

国产端侧小模型超越 GPT-4V,「多模态」能力飞升

在刚刚过去的机器人学术顶会 ICRA 2024 上,「具身智能」成为热议,其中围绕具身智能的一个普遍疑问是:若将 AI 大模型应用到消费级机器人领域,首先是模型适配终端,还是终端适配模型? 过去一年,由于 6B、7B 等小模型的成果井喷,以及 MoE 训练技术的越发成熟,将模型跑在手机、学习机、平板电脑、机器人甚至汽车等等终端应用上的想象力开始变大,无论算法层还是硬件层都「蠢蠢欲动」。 诚然,这已经成为一个明朗的行业方向,但在系统整合上却要面临不同话语体系之间的博弈。