近日 ChatGPT-4o 的发布会应该是未来几天 AI 圈子最有热度的话题了,其中几条革新其实可以从人机交互的角度解读一下。
首先我们还是先来看看 GPT-4o 革新的主要内容(只关注交互角度解读可跳过):
多模态交互威力:ChatGPT 4.0 支持图象和文本输入,并能输出文本,具备多模态交互的威力。这意味着它可以了解图象内容,并生成字幕、分类和分析等操作。
自然语言了解威力提高:在自然语言了解方面有显著提高,这使得 ChatGPT 4.0 能够更好地了解用户的输入,并根据用户的语境提供更准确的回答。
上下文长度增加:ChatGPT 4.0 的上下文长度得到增加,这使得模型在处理长篇对话时表现更佳,能更好地了解整个对话的背景和上下文,从而给出更准确和恰当的回答。
数据分析及可视化作图功用:通过直接打通相关功用模块,ChatGPT 4.0 能够利用自然语言交互,根据知识库、在线检索到的数据进行数据分析及可视化作图。
DALL·E 3.0 功用:ChatGPT 4.0 引入了 DALL·E 3.0 功用,允许用户上传图片并在其上进行查询,可以直接从必应浏览,并直接使用 ChatGPT 中的 DALL·E 3.0 功用,在图片上进行创作。
模型架构和训练数据的进步:开发者在这个版本中引入了更先进的模型架构、更多的训练数据和更多的语言数据,将聊天机器人的性能提高到了一个新的高度。
API 开放和价格优惠:新版本 GPT-4 Turbo 支持 128k 上下文,知识截止革新到 2023 年 4 月,视觉威力、DALL·E3,笔墨转语音 TTS 等功用全都对 API 开放,同时 API 价格还打了 3-5 折。
这其中的第 1、2、3、5 点都可以从人机交互的角度聊一聊。
第 1 点:多模态交互威力。
今天作者也看了一些写 GPT-4o 革新的文章,有些人仅仅把多模态交互威力了解成了我们可以不仅仅使用笔墨和 GPT 调换了,这么了解实在太小看多模态交互威力了。
要知道,人类通过笔墨抒发和声响抒发,即使是完全同样的文本。所包含的信息也有很大的差别。笔墨只是静态的信息,而声响包含更多维度的信息。例如语音、语调、音量、语速、停顿、重音等等。
同样是「你好」,笔墨只能抒发 1 种含义,而声响可能能抒发 4-6 种。对于程序来说,多模态交互意味着从更多来源获取信息(指视、听、文、环境等来源)。也意味着获取更多信息(例如刚刚所说的声响维度的语音、语调、音量、语速、停顿、重音)。
从多来源获取信息并获取更多信息,GPT 就可以缩短推理、判断等过程,更快速的给与用户答复。这就像是用户自动的把提问描述的更详细了,把自己的要求说的更清楚了,如此一来 GPT 给与反馈的速度和质量自然会有对应的提高。(当然同样也有模型方面带来的提高)
除了声响之外,GPT-4o 的多模态交互威力还包括视觉了解威力,例如能识别图象中的人脸,分析性别、年龄、表情等信息。这同样是我们刚刚所说的从更多来源获取信息以及获取更多信息。
以上是多模态交互威力中,人向 GPT 输入过程中的意思,那么对于人机交互的另一部分:GPT 向人输出的阶段,同样意思非凡。
GPT-4o 可以根据需要以最合适的模态进行回应,在之前 GPT 只能以笔墨进行答复,但之后则可以是笔墨、声响、图象。声响模态的意思是支持更多调换场景以及对无障碍交互的包容。图象的意思就不用多说了吧,无论是取代了命令行界面的图形化界面,还是你晋升答辩时准备的 PPT,都能体现图象相对于笔墨的优势。
第 2 点:自然语言了解威力提高
如果说多模态交互威力代表了输入和输出这两个阶段。那自然语言了解威力就代表了「处理」这个阶段。当 GPT 从多来源获取信息后,下一步就是了解这些信息,了解过后才能给出答复信息。自然语言了解威力的提高意味着 GPT-4o 对用户意图的识别更加准确了。那么自然后续答复的内容、答复的模态都会有更高质量的结果。
第 3 点:上下文长度增加
这一点的意思首先体现在长篇对话上,我们可以类比人与人之间的调换方式,两个相识了多年的朋友,可能他们一句很短的对话就可以包含非常大的信息量,例如张三对李四说:你上回那个设计方案真是太牛了!
这句话本身没提及但张三和李四都能了解的信息可能有:
设计方案的具体内容
设计方案的效果
时间点(上回)
如果想清晰的抒发以上的 1、2、3 包含的具体信息,可能需要上千字或十分钟的对话才能说清楚,但由于这些信息都已经被储存在人的记忆中,两人在调换的过程中就可以省略很多详细的描述和前置条件,用一句话抒发大量信息。
对于 GPT-4o 而言,可记忆的上下文长度增加就意味着他变成了一个对你更熟悉的程序,所以当用户与 GPT-4o 调换时,就可以像张三和李四调换那样使用更少的信息调换更多的信息,同时能够保障调换质量。
要注意的是,刚刚我使用了对你更熟悉的程序这样的描述,而不是对你更熟悉的朋友这样的描述,这里面关键的区别有两方面,第一方面是所谓的上下文长度,可以类比人与人相识的时间和调换的信息总量、了解程度。
第二方面是我们可以畅想一下,如果现在的新生代儿童从很小的年龄就开始使用 AI 工具,并且 AI 工具附着在便携式智能设备上,以多模态与用户同时感知周围环境,再加之 GPT-4o 的可贯穿数十年的可记忆上下文长度。这样的 AI 可能会成为用户最熟悉的朋友,甚至远超父母、家人。如果再给与这个 AI 相应的硬件,那几乎可视为智械族了~
第 5 点:DALL·E 3.0 功用
文生图威力以及对图片的智能编辑威力已经是很多其他产品早已具备的了,不过 GPT-4o 这次革新帮助用户节省了之前都是由用户操作的不同数据类型转化的操作,改为由 GPT-4o 代替,对用户来说同样是操作效率的提高。就像我们之前如果在某张图片上看到了一个新概念,那可能需要用打字或 ocr 的方式将图片转化成笔墨再继续使用。而 GPT-4o 以后将为用户省掉这个过程。
其他的像创意工作、广告制作、产品设计、教育演示等方面的意思就不再多说,市面上已经有很多类似的产品了。
在整个发布会之中,还有一个令用户们 wow 的点是 GPT-4o 的相应时间仅为 232 毫秒(平均 320 毫秒),几乎达到了与人类实时对话的水平,显著优于前代模型的延迟表现。
其实我们可以从以上的解读中思考一下,为什么 GPT-4o 的相应时间得到了如此大的提高?
第 1 点:意味着 GPT-4o 获取信息的速度更快了,信息量更多了。
第 2 点:意味着 GPT-4o 了解这些信息更快了。
第 3 点:意味着 GPT 能从上下文获取更多用户没有直接抒发的信息。
综合以上 3 点提示再加上本身模型威力的提高,GPT-4o 的相应时间达到 232 毫秒也就容易了解了。
当 GPT-4o 的相应时间达到了人类与人类对话的水平时,很多应用场景的想象空间就更大了。具体作者想到了如下几方面:
实时交互性增强:这样的相应速度使得人机对话接近无缝对接,几乎消除了传统人工智能助手在处理请求和提供答复之间的感知延迟。用户在与 GPT-4o 调换时,会感觉像是在与另一个真实人类进行自然流畅的对话,可以大大提高了交互的真实感和满意度。
用户体验优化:更快的相应时间减少了用户等待反馈的心理负担,使得调换过程更加舒适和高效。这对于需要快速反馈的场景尤为重要,比如紧急情况下的信息查询、即时决策支持或者快节奏的商业沟通。并且更加与人与人的调换相似了,想象一下我们在和朋友聊天的时候,一般不会等个 3 秒再说话吧?
应用场景拓展:由于能够实时处理音频、视觉和文本信息,GPT-4o 打开了通往更多应用场景的大门。例如,在客户服务、教育辅导、远程医疗、虚拟助理、游戏交互等领域,实时交互威力都是提高服务质量和效率的关键。