大家好我是花生~
最近 Google 发布了一个新的多模态大模型 Gemini,在 AI 模型领域掀起了一轮新的讨论热潮,风头一时间甚至盖过了 GPT-4。那么 Gemini 的具体功能有哪些,相比其他大模型又有何特点呢?今天我们就一起来看看。
了解 GPT-4:
一、 Gemini 的功能
Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准测试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样理解我们周围的世界,并吸收任何类型的输入和输出,包括文本、代码、视频、音频和图像。
Google 同时发布了多个演示视频,展现 Gemini 的多模态能力。
首先是识图能力,Gemini 可以理解图像/视频中的内容,并进行相应的总结推算。比如能根据不同颜色的毛线给出它们可以编织的物体;看到画面中出现吉他、电吉他时,会提供对应的演奏音频;可以智能追踪视频中物体的运动轨迹,即使被遮挡也不会影响它的判断。
然后是推理能力,Gemini 可以根据用户要求定制体验。问它该如何为自己喜欢动物的女儿庆祝生日,它会根据“喜欢动物”这一点发散出多个不同场景的活动,再根据每个场景写出“产品需求文档”,事无巨细地安排好一切。点击你感兴趣的某一项,它也能迅速给出更多具有可行性的建议和方案。
上面的视频中,Gemini 在呈现不同方案时还进行了 UI 设计,这展示出它的另一项能力:代码编写。Gemini 可以理解、解释和生成目前主流编程语言的高质量代码,如 Python、Java、C++ 和 Go。解决问题的成功率可以达到 75 %,如果让它进行自检并修复自己的代码,成功率会提升至 90% 。
Google 以 Gemini 为引擎,将其代码生成系统 AlphaCode 升级到了 2.0 版本,具有动态编程能力,即一步步将复杂的编程问题分解为更简单的子问题进行解决。其编程表现比第一代提升了 50%,擅长处理竞争性编程问题,与程序员的协作时性能也更好,以后可能任何人都能在几秒内为自己的想法生成代码原型。
Gemini 另一个非常强悍的能力是可以理解复杂的书面和视觉信息。在相关演示视频中,它在一个午休的时间内,按用户要求处理了 200000 篇论文,提取了其中 250 篇的相关数据,还能借助多模态能力进一步将数据处理成图表,并根据代码指示后期自动更新。这种处理效率是人工无法比拟的,而且这种数据处理能力对金融、法律这种依赖大型数据集的领域同样适用。
Gemini 还可以帮助家长解决一项生活中非常头疼的问题:辅助孩子写作业。它可以识别试卷上的手写内容,然后判断答题是否正确,并能借助其强大的数学和推理能力,对其中的步骤或者概念做出详细的解释,真正实现“妈妈再也不用担心我的学习了”。
二、原生多模态
Gemini 的这些功能虽然看来与 GPT-4V 功能相同, 但 Google 在发布时特意强调了 Gemini「原生多模态 natively multimodal」的特性。
传统的多模态模型是在第二阶段的时候,将纯文本、纯视频、纯音频模型连接到一起,分别进行不同模态的任务处理,再汇聚到一起;而 Gemini 从一开始就对不同的模态进行预训练,然后再用额外的多模态数据对其进行微调。简单理解的话,就像办一个大型活动,传统多模态的做法是会场布置、餐饮、后勤、安保、接待、宣发分别找不同的团队来完成,而 Gemini 则是一个团队包揽所有的工作,协作起来更顺利高效。
传统多模态大模型训练方法:
Genimi 原生多模态大模型训练方法:
这样的训练方法有助于 Gemini 无缝理解、操作和组合不同类型的信息。
一般多模态大模型与音频交互时,会先通过语音识别系统将内容转换为文本进行理解,但这个过程中会损失很多细节,比如音色、发音和语气等。而 Gemini 凭借原生多模态模型可以实现端到端处理原始音频,识别这些细节,从而更好地理解并处理用户的需求。
Gemini 辅助用户选择正确的中文发音:
三、全面的生态布局
此次发布的 Gemini 1.0 准确来说是一个大模型系列,因为里面包含了 3 个不同量级的优化版本:Ultra、Pro 和 Nano,分别对应不同的使用场景和需求。
Gemini Ultra 是 Google 最大最强的模型,适用于高度复杂的任务,主要面向数据中心和企业应用; Gemini Pro 是性能最佳的模型,广泛适用于各种任务; Gemini Nano 是效率最高的模型,适用于手机等移动端设备。分为 1.8B 和 3.25B 两个版本,1.8B 面向低端手机,3.25B 面向高端手机。① Gemini Ultra
Gemini Ultra 可以理解为 Gemini 1.0 的完全体,我们前面看到演示视频都是由它完成的。Ultra 在 32 组基准测试中拿到了 30 个 SOTA(state of the art,是在特定任务中目前表现最好的方法或模型),性能超过了当前最先进的结果。
下图显示了 Gemini Ultra 与 GPT-4 的测试数据对比,可以看到在通用、推理、数学、编码等能力的多个基准测试中,Gemini Ultra 都略优于 GPT-4。
Gemini Ultra 目前还在进行广泛信任和安全检查,仅提供给选定的客户、开发人员、合作伙伴以及安全责任专家 ,预计将在明年初将推广给开发人员和企业客户。
② Gemini Pro
Gemini Pro 已经部署到 Google 聊天机器人 Bard 上了,这是 Bard 自推出以来最大的升级。虽然目前仅支持英文交互和美国地区使用,但相对 GPT-4 来说获取更方便。我问了 Bard 它是否是由 Gemini Pro 提供支持,Bard 也肯定了这个说法。
Bard 网页: https://bard.google.com/chat
内置 Gemini Pro 的 Bard 未来则会在 170 多个国家和地区提供,并支持更多不同的语言。开发者和企业客户可以从 12 月 13 日起通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。Google 还 计划在明年年初推出 Bard Advanced,由 Gemini Ultra 驱动,给用户带来最尖端的 AI 体验。
③ Gemini Nano
Gemini Nano 是专门针对端侧设备推出的轻量级版本,这也符合当下行业的发展趋势,国内像 VIVO、小米都已经推出了面向普通智能手机用户的端侧大模型与云端大模型的结合应用。
Google 旗下的 Pixel 8 Pro 手机会是第一款搭载 Gemini Nano 的智能手机,支持的功能包括:对录音机中的对话、采访、文稿等进行总结;在 Gboard 中提供高质量的回复;在 Google 相册中对人像进行改善优化;在云端对视频进行调色、降噪、模糊修复等操作。
除了 Google 生态本身的 App,Gemini Nano 还支持接入 Android 系统,第三方应用的开发者也能通过应用适配的方式调用手机自带的 Gemini 模型能力。
四、激烈的 AI 模型竞赛
Google 其实一直都是 AI 领域的领军者, 但 ChatGPT 和 GPT-4 的接连发布却多少让这位 AI 界的巨人有些措手不及。Google 在今年 3 月份推出 ChatGPT 对标产品 Bard 时,还因为发布会上演示效果不佳当场“翻车”,导致市场对其未来发展看低。
但 4 月份的时候,Google 直接把 2 个世界级的 AI 团队 Google Brain 和 DeepMind 合并成 Google DeepMind,汇合两个实验室的力量进行 AI 模型攻关,足见 Google 在大模型研发竞赛上必胜的决心。Gemini 的诞生是 Google 对自己在 AI 领域实力和领先地位的证明,同时也再一次将市场的目光拉回到自己身上。
目前市场对 Gemini 的反应还是非常积极的,认为它是 GPT-4V 领先地位的有力挑战者。由于 Gemini Ultra 模型尚未开放,我们无法测试它是否真的像视频展示的那样强大,只能通过 Bard 和 GPT-4V 的对比来感受二者的差别。
一些专业人士根据实测对比结果推测,Gemini Pro 应该比 ChatGPT 3.5 更好,Ultra(尚未发布)比 GPT-4 更好,而目前 Gemini Pro 与 GPT-4 算是各有所长,但整体上略逊色于 GPT-4。
需要注意的是,目前也有很多人质疑 Gemini 的多模态能力。彭博社发布的一篇文章直接指出,谷歌的演示视频并非实时进行,也不是通过语音进行,而是通过使用视频画面的静态图像帧,以及通过文字提示制作的。而谷歌在随后发布声明,称视频内容并没有作假,只是为了呈现最佳的展示效果进行了剪辑,但这也已经让市场对 Gemini 能力的信任度下降,认为 Gemini 并无法超越 GPT-4。
而对我们普通用户来说,一方面是在 GPT-4、文心一格、Claude 之外又多一个免费好用的大模型,另一方面 Gemini 会刺激其他大模型的发展竞争,实现模型“增量降价”,总归是好事。
就在 Gemini 发布的后一天,字节跳动研究院高管在推特上发文称“一个比 Gemini 更强大的超强模型预计会随时到来”,虽然没有明说是哪一家的大模型,但据此我们也能看出 AI 模型的研发竞赛还在继续。