融合视觉能力，OpenAI 向开发人员供应 GPT-4 Turbo with Vision

感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍供应。据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而 GPT-4 Turbo with Vision 则将两者合二为一，极大简化了开发流程，并带来了广泛的应

感谢OpenAI 宣布，具有视觉能力的最新 GPT-4 Turbo 模型 GPT-4 Turbo with Vision 现已通过 OpenAI API 向开发人员普遍供应。

据IT之家了解，该模型延续了 GPT-4 Turbo 系列 128,000 个 token 的窗口大小以及截止至 2023 年 12 月的知识库，最大的革新之处在于其新增的视觉理解能力。在过去，开发者需要调用不同的模型来处理文本和图像信息，而 GPT-4 Turbo with Vision 则将两者合二为一，极大简化了开发流程，并带来了广泛的运用前景。

OpenAI 也分享了一些开发者正在运用该模型的有趣案例。例如，AI 软件工程助手 Devin 行使 GPT-4 Turbo with Vision 辅助编程；健康健身运用程序 Healthify 运用该模型扫描用户饮食照片，通过图像识别供应营养分析；创意平台 Make Real 则行使该模型将用户的草图转化为可运行的网站。

目前，GPT-4 Turbo with Vision 尚未运用于 ChatGPT 或开放给大众运用，不过 OpenAI 暗示该功能即将登陆 ChatGPT。

{{userData.name}}已认证

融合视觉能力，OpenAI 向开发人员供应 GPT-4 Turbo with Vision

Instagram 短视频板块 Reels 测试 AI 同传性能，用户可用自己声音“说外语”

苹果介绍 Ferret-UI 多模态大谈话模型：更充分懂得手机屏幕实质

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！