OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

大家好，这里是和你们一起探索 AI 的花生。5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」，会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了这次更新升级的要点，并及时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功用，展示了其富强的及时多模态交互性能，今天我们就一起来看看这次发布会的具体实质。OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会一、最新旗舰模型 GPT-4o 这次发布会最大的亮点就是新旗舰模型 GPT-4o 的

大家好，这里是和你们一起探索 AI 的花生。

5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」，会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了这次更新升级的要点，并及时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功用，展示了其富强的及时多模态交互性能，今天我们就一起来看看这次发布会的具体实质。

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会

一、最新旗舰模型 GPT-4o

这次发布会最大的亮点就是新旗舰模型 GPT-4o 的推出，其中「o」是 “omni（全能）”的意思。GPT-4o 可以接受文本、音频和图象的任意组合作为输入，并生成文本、音频和图象的任意组合输出，且这些实质的反馈都是及时的，因此应用 GPT-4o 就像和真人从事互动那样轻松自然。

比如及时语音交互，之前 ChatGPT 的从事语音对话会有几秒的延迟，中间的等待时间总让人觉得不自然。而 GPT-4o 能在 232 毫秒内响应音频输入，平均响应时间为 320 毫秒，与人类在对话中的响应时间相近。并且即使是面对回答被突然中断、多人同时谈话等复杂的情况，GPT-4o 也能完美理解。

当视频在手机上无法加载，可前往PC观察。

这样的提升主要得益于新的模型训练方式。之前 ChatGPT 的语音模式是由三个独立模型组成的流水线：一个简单模型将音频转录为文本，GPT-3.5 或 GPT-4 接收文本并输出文本，第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息–它不能直接观察音调、多人讲话或背景噪音，也不能输出笑声、歌声或表达情感。

而 GPT-4o 应用的是在文本、视觉和音频领域端到端训练的新模型，这意味着它可以直接理解音频或者视频一切实质，比如通过你的语气、语速判断你的状态，并做出相对于的反应。官方演示中工作人员特意做出了一个呼吸急促的行为，GPT-4o 能正确识别并理解这种行为对“深呼吸”来说是不对的，还给出的正确的建议。

当视频在手机上无法加载，可前往PC观察。

基于 GPT-4o 的情绪感知能力、快速反应能力和富强的理解力，它能独立处理的场景就丰富了。它可以是一个完美的情感伴侣，给你讲故事、为你唱歌；也可以是一个专业的助理，可以在多人对话中扮演翻译，及时将一种语言翻译成另一种方便你们沟通；或者是作为客服为用户提供专业、耐心的解答帮助。GPT-4o 它的回答方式、说话的语速语调也可以全凭你的喜好来设置、真实灵活的表现完全不会让你觉得它是一个机器人。

这样富强的及时交互能力同样能在视觉上发挥作用。GPT-4o 可以根据你的面部表情判断你的情绪，从而更好地和你交谈；辅导你学习一门新语言或者一步步解开一个方程式；根据你将要去的场合对你的穿搭给出建议；甚至可以充当盲人的 “眼睛”，描述周围发生的一切并为他的下一步动作给出建议，比如该什么时候招手叫停一辆出租车。由此可见 GPT-4o 将给我们的生活带来多么巨大的改变。

当视频在手机上无法加载，可前往PC观察。

除了语音和视觉交互功用，GPT-4o 在文本及图象的生成处理上性能也有大幅提升。根据传统基准测试，GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的级别。有网友测试后反映 GPT-4o 在长文本的处理上表现有明显提升，可以快速地分析一篇 20 万字的英文文稿，并对其实质从事总结、人物背景从事分析，这点是其他大模型无法做到的。

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

GPT-4o 的图象处理功用更是令人惊喜，不但能识别/分析图象实质、根据文本生成准确的英文文本实质，还能充当 “设计师” 完成一些高阶的图象编辑合成任务。比如根据指令对文本从事排版，将照片动漫化、生成创意字体、根据一个 logo 生成样机模板或者周边、根据图象从事 3D 重建、设计一个角色并生成一系列能保持角色形象一致性的场景等等，之前大家说的 “用嘴做设计” 的梦想好像真的要实现了。

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

根据指令对文本从事排版

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

生成角色以及一系列连贯场景

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

根据图象合成海报

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

根据图象从事 3D 重建

二、新的桌面应用和 WebUI

这次发布会上的另一要点是 ChatGPT 将推出桌面端应用，目前已经有 Mac 原生应用可以安装。客户端体积 134 MB，需要有 ChatGPT 付费账号以及一些网络技术基础才能顺利用上，Windows 客户端则预计会在晚些时候推出。

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

桌面端 ChatGPT 将帮助我们更便捷的应用它的 AI 服务。应用键盘快捷键 Option + Space 可以立即向 ChatGPT 提问，发送网页截图或者从事语音对话也更方便，更大地用处是用户可以直接将整个屏幕分享给 ChatGPT，让它根据屏幕实质及时处理人物，比如检测你的代码写作过程；参加你的线上会议并记录实质、总结要点；以及对中国家长来说非常需要的 “辅导孩子写作业”。

当视频在手机上无法加载，可前往PC观察。

三、易用性提升与 AI 普惠

一般来说越富强的性能往往意味着越高昂的获取代价，但 GPT-4o 的获取门槛并没有提高。现在在 ChatGPT 网页端，收费用户也可以体验 GPT-4o 的文本和图象功用，不过额度有限，当达到限制后将自动切换到 GPT-3.5 以继续和用户对话；付费用户的额度则是收费用户的 5 倍。未来几周内 OpenAI 还将在 ChatGPT Plus 中推出新版语音模式的 alpha 版。

开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比，GPT-4o 速度提高 2 倍，价格降低一半，速率限制提高 5 倍。官方还计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功用的支持。

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

其实在这次发布会中，Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity（确保人工智能造福全人类），OpenAI 首席执行官 Sam Altman 也在发布会后单独发表了一篇博客，同样强调 “我们使命的一个关键部分是将非常富强的人工智能工具收费（或以优惠的价格）提供给人们” 。而他们的团队也一直致力于此，努力从各方面降低人们应用 AI 的困难。

比如目前用户可以不用注册就应用 ChatGPT；CHatGPT 的 WebUI 界面也有了优化，以提供给用户更简单友好的应用体验；还新增 “临时聊天” 功用，允许用户和 ChatGPT 从事一次性对话，该对话的聊天实质不会被保存到聊天记录之中，可以帮助用户避免隐私问题；而桌面端 ChatGPT 的推出则让人与 AI 的交互变得更加简单直接。

之前 GPT-3.5 已经收费提供给了所有用户应用，GPT4o 因为在文字方面实现了成本降低，尤其是对于英文以外的语言来说减少了 token 的应用，使得服务更加经济，所以 OpenAI 能够将 GPT-4o 也收费带给用户，包括 GPTs 未来也将收费开放。所有人都能轻松用上 GPT-4 级别的人工智能，还没有任何广告或其他干扰，这是 OpenAI 践行其“AI 普惠” 使命的有力证明。

GPT-4o 的出现不仅意味我们又多了一个富强可用的多模态模型，更是展示了未来人机交互的一种新范式。Sam Altman 称 GPT-4o 的语音/视频模式是他用过的最好的计算机界面，还用科幻电影《Her》来指代 GPT-4o 给自己的感受（《Her》是一部讲述人与人工智能相爱的科幻爱情电影，里面有一个人工智能 “萨曼莎”，是一个比人类更懂人类的 AI）。或许未来每个人都会有一个专属 AI 助理，我们将把自己的双手和眼睛从电子屏幕上解放出来，仅通过语音交互就完成大部分的工作和日常任务，而本是科幻电影里的场景也会成为真正的现实。

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

本期为大家介绍的 OpenAI 春季发布会的相关实质，喜欢的话记得点赞收藏支持一波，我会有更动力为大家推荐新的干货实质~ 想了解更多 AI 新鲜资讯的话，欢迎关注优设 AI 自学网和优设微信视频号，每天都会分享最新的 AIGC 资讯和神器，让你轻松掌握 AI 发展动态。

另外我最新制作的课程《零基础 AI 绘画入门》已经上线，课程包含对 Midjourney 及 Stable Diffusion WebUI 的系统入门教学，并提供配套资源、各类实用工具和提示词库，能帮助初学者快速掌握这 2 款目前最热门的 AI 工具，感兴趣的小伙伴可以戳的链接了解详情：夏花生的《零基础 AI 绘画录播课》。

{{userData.name}}已认证

OpenAI 发布新旗舰模型GPT-4o！及时交互犹如真人，收费开放

一、最新旗舰模型 GPT-4o

二、新的桌面应用和 WebUI

三、易用性提升与 AI 普惠

大模型价格进入“厘”时代，豆包大模型定价每千tokens仅0.8厘

李飞飞解读创业方向「空间智能」，让AI真正理解全国

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩