大家好,这里是和你们一起探索 AI 的花生。
5 月 14 日凌晨 OpenAI 举办了首次「春季新品发布会」,会上 OpenAI 首席技术官 Mira Murati 从 3 方面介绍了这次更新升级的要点,并及时演示了 OpenAI 最新的旗舰模型 GPT-4o 相关功用,展示了其富强的及时多模态交互性能,今天我们就一起来看看这次发布会的具体实质。
OpenAI 首席技术官 Mira Murati 在主持 OpenAI 春季新品发布会
一、最新旗舰模型 GPT-4o
这次发布会最大的亮点就是新旗舰模型 GPT-4o 的推出,其中「o」是 “omni(全能)”的意思。GPT-4o 可以接受文本、音频和图象的任意组合作为输入,并生成文本、音频和图象的任意组合输出,且这些实质的反馈都是及时的,因此应用 GPT-4o 就像和真人从事互动那样轻松自然。
比如及时语音交互,之前 ChatGPT 的从事语音对话会有几秒的延迟,中间的等待时间总让人觉得不自然。而 GPT-4o 能在 232 毫秒内响应音频输入,平均响应时间为 320 毫秒,与人类在对话中的响应时间相近。并且即使是面对回答被突然中断、多人同时谈话等复杂的情况,GPT-4o 也能完美理解。
当视频在手机上无法加载,可前往PC观察。
这样的提升主要得益于新的模型训练方式。之前 ChatGPT 的语音模式是由三个独立模型组成的流水线:一个简单模型将音频转录为文本,GPT-3.5 或 GPT-4 接收文本并输出文本,第三个简单模型将文本转换回音频。这个过程意味着主要的智能源 GPT-4 会丢失很多信息–它不能直接观察音调、多人讲话或背景噪音,也不能输出笑声、歌声或表达情感。
而 GPT-4o 应用的是在文本、视觉和音频领域端到端训练的新模型,这意味着它可以直接理解音频或者视频一切实质,比如通过你的语气、语速判断你的状态,并做出相对于的反应。官方演示中工作人员特意做出了一个呼吸急促的行为,GPT-4o 能正确识别并理解这种行为对“深呼吸”来说是不对的,还给出的正确的建议。
当视频在手机上无法加载,可前往PC观察。
基于 GPT-4o 的情绪感知能力、快速反应能力和富强的理解力,它能独立处理的场景就丰富了。它可以是一个完美的情感伴侣,给你讲故事、为你唱歌;也可以是一个专业的助理,可以在多人对话中扮演翻译,及时将一种语言翻译成另一种方便你们沟通;或者是作为客服为用户提供专业、耐心的解答帮助。GPT-4o 它的回答方式、说话的语速语调也可以全凭你的喜好来设置、真实灵活的表现完全不会让你觉得它是一个机器人。
这样富强的及时交互能力同样能在视觉上发挥作用。GPT-4o 可以根据你的面部表情判断你的情绪,从而更好地和你交谈;辅导你学习一门新语言或者一步步解开一个方程式;根据你将要去的场合对你的穿搭给出建议;甚至可以充当盲人的 “眼睛”,描述周围发生的一切并为他的下一步动作给出建议,比如该什么时候招手叫停一辆出租车。由此可见 GPT-4o 将给我们的生活带来多么巨大的改变。
当视频在手机上无法加载,可前往PC观察。
除了语音和视觉交互功用,GPT-4o 在文本及图象的生成处理上性能也有大幅提升。根据传统基准测试,GPT-4o 在文本、推理和编码智能方面达到了 GPT-4 Turbo 的级别。有网友测试后反映 GPT-4o 在长文本的处理上表现有明显提升,可以快速地分析一篇 20 万字的英文文稿,并对其实质从事总结、人物背景从事分析,这点是其他大模型无法做到的。
GPT-4o 的图象处理功用更是令人惊喜,不但能识别/分析图象实质、根据文本生成准确的英文文本实质,还能充当 “设计师” 完成一些高阶的图象编辑合成任务。比如根据指令对文本从事排版,将照片动漫化、生成创意字体、根据一个 logo 生成样机模板或者周边、根据图象从事 3D 重建、设计一个角色并生成一系列能保持角色形象一致性的场景等等,之前大家说的 “用嘴做设计” 的梦想好像真的要实现了。
根据指令对文本从事排版
生成角色以及一系列连贯场景
根据图象合成海报
根据图象从事 3D 重建
二、新的桌面应用和 WebUI
这次发布会上的另一要点是 ChatGPT 将推出桌面端应用,目前已经有 Mac 原生应用可以安装。客户端体积 134 MB,需要有 ChatGPT 付费账号以及一些网络技术基础才能顺利用上,Windows 客户端则预计会在晚些时候推出。
桌面端 ChatGPT 将帮助我们更便捷的应用它的 AI 服务。应用键盘快捷键 Option + Space 可以立即向 ChatGPT 提问,发送网页截图或者从事语音对话也更方便,更大地用处是用户可以直接将整个屏幕分享给 ChatGPT,让它根据屏幕实质及时处理人物,比如检测你的代码写作过程;参加你的线上会议并记录实质、总结要点;以及对中国家长来说非常需要的 “辅导孩子写作业”。
当视频在手机上无法加载,可前往PC观察。
三、易用性提升与 AI 普惠
一般来说越富强的性能往往意味着越高昂的获取代价,但 GPT-4o 的获取门槛并没有提高。现在在 ChatGPT 网页端,收费用户也可以体验 GPT-4o 的文本和图象功用,不过额度有限,当达到限制后将自动切换到 GPT-3.5 以继续和用户对话;付费用户的额度则是收费用户的 5 倍。未来几周内 OpenAI 还将在 ChatGPT Plus 中推出新版语音模式的 alpha 版。
开发人员现在还可以在 API 中访问 GPT-4o 作为文本和视觉模型。与 GPT-4 Turbo 相比,GPT-4o 速度提高 2 倍,价格降低一半,速率限制提高 5 倍。官方还计划在未来几周内在 API 中向一小部分值得信赖的合作伙伴推出对 GPT-4o 新音频和视频功用的支持。
其实在这次发布会中,Mira Murati 最先提到的就是 OpenAI 的公司使命 —— To ensure that artificial general intelligence benefits all of humanity(确保人工智能造福全人类),OpenAI 首席执行官 Sam Altman 也在发布会后单独发表了一篇博客,同样强调 “我们使命的一个关键部分是将非常富强的人工智能工具收费(或以优惠的价格)提供给人们” 。而他们的团队也一直致力于此,努力从各方面降低人们应用 AI 的困难。
比如目前用户可以不用注册就应用 ChatGPT;CHatGPT 的 WebUI 界面也有了优化,以提供给用户更简单友好的应用体验; 还新增 “临时聊天” 功用,允许用户和 ChatGPT 从事一次性对话,该对话的聊天实质不会被保存到聊天记录之中,可以帮助用户避免隐私问题;而桌面端 ChatGPT 的推出则让人与 AI 的交互变得更加简单直接。
之前 GPT-3.5 已经收费提供给了所有用户应用,GPT4o 因为在文字方面实现了成本降低,尤其是对于英文以外的语言来说减少了 token 的应用,使得服务更加经济,所以 OpenAI 能够将 GPT-4o 也收费带给用户,包括 GPTs 未来也将收费开放。所有人都能轻松用上 GPT-4 级别的人工智能,还没有任何广告或其他干扰,这是 OpenAI 践行其“AI 普惠” 使命的有力证明。
GPT-4o 的出现不仅意味我们又多了一个富强可用的多模态模型,更是展示了未来人机交互的一种新范式。Sam Altman 称 GPT-4o 的语音/视频模式是他用过的最好的计算机界面,还用科幻电影 《Her》来指代 GPT-4o 给自己的感受(《Her》是一部讲述人与人工智能相爱的科幻爱情电影,里面有一个人工智能 “萨曼莎”,是一个比人类更懂人类的 AI)。或许未来每个人都会有一个专属 AI 助理,我们将把自己的双手和眼睛从电子屏幕上解放出来,仅通过语音交互就完成大部分的工作和日常任务,而本是科幻电影里的场景也会成为真正的现实。
本期为大家介绍的 OpenAI 春季发布会的相关实质,喜欢的话记得点赞收藏支持一波,我会有更动力为大家推荐新的干货实质~ 想了解更多 AI 新鲜资讯的话,欢迎关注 优设 AI 自学网 和优设微信视频号,每天都会分享最新的 AIGC 资讯和神器,让你轻松掌握 AI 发展动态。
另外我最新制作的课程《零基础 AI 绘画入门》已经上线,课程包含对 Midjourney 及 Stable Diffusion WebUI 的系统入门教学,并提供配套资源、各类实用工具和提示词库,能帮助初学者快速掌握这 2 款目前最热门的 AI 工具,感兴趣的小伙伴可以戳的链接了解详情:夏花生的《零基础 AI 绘画录播课》。