全面超越GPT-4?一文详解Google新模型Gemini

大家好我是花生~ 最近 Google 公布了一个新的多模态大模型 Gemini,在 AI 模型领域掀起了一轮新的讨论热潮,风头一时间甚至盖过了 GPT-4。那么 Gemini 的具体功用有哪些,相比其他大模型又有何特点呢?今天我们就一起来看看。 了解 GPT-4:一、 Gemini 的功用 Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准尝试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样了解我们周围的世界,并

全面超越GPT-4?一文详解Google新模型Gemini

大家好我是花生~

最近 Google 公布了一个新的多模态大模型 Gemini,在 AI 模型领域掀起了一轮新的讨论热潮,风头一时间甚至盖过了 GPT-4。那么 Gemini 的具体功用有哪些,相比其他大模型又有何特点呢?今天我们就一起来看看。

了解 GPT-4:

一、 Gemini 的功用

Google 称 Gemini 是其历史上最强大、最通用的模型,在许多基准尝试中都具有最先进的性能。Google DeepMind 的 CEO Demis Hassabis 称 Gemini 可以像人类一样了解我们周围的世界,并吸收任何类型的输入和输出,包括文本、代码、视频、音频和图像。

全面超越GPT-4?一文详解Google新模型Gemini

Google 同时公布了多个示范视频,展现 Gemini 的多模态才能。

首先是识图才能,Gemini 可以了解图像/视频中的内容,并举行相应的总结推算。比如能根据分歧颜色的毛线给出它们可以编织的物体;看到画面中出现吉他、电吉他时,会提供对应的演奏音频;可以智能追踪视频中物体的运动轨迹,即使被遮挡也不会影响它的判断。

然后是推理才能,Gemini 可以根据用户要求定制体验。问它该如何为自己喜欢动物的女儿庆祝生日,它会根据“喜欢动物”这一点发散出多个分歧场景的活动,再根据每个场景写出“产品需求文档”,事无巨细地安排好一切。点击你感兴趣的某一项,它也能迅速给出更多具有可行性的建议和方案。

上面的视频中,Gemini 在呈现分歧方案时还举行了 UI 设计,这展示出它的另一项才能:代码编写。Gemini 可以了解、解释和生成当前主流编程语言的高质量代码,如 Python、Java、C++ 和 Go。解决问题的成功率可以达到 75 %,如果让它举行自检并修复自己的代码,成功率会提升至 90% 。

Google 以 Gemini 为引擎,将其代码生成系统 AlphaCode 升级到了 2.0 版本,具有动态编程才能,即一步步将复杂的编程问题分解为更简单的子问题举行解决。其编程表现比第一代提升了 50%,擅长解决竞争性编程问题,与程序员的协作时性能也更好,以后可能任何人都能在几秒内为自己的想法生成代码原型。

全面超越GPT-4?一文详解Google新模型Gemini

Gemini 另一个非常强悍的才能是可以了解复杂的书面和视觉信息。在相关示范视频中,它在一个午休的时间内,按用户要求解决了 200000 篇论文,提取了其中 250 篇的相关数据,还能借助多模态才能进一步将数据解决成图表,并根据代码指示后期自动更新。这种解决效率是人工无法比拟的,而且这种数据解决才能对金融、法律这种依赖大型数据集的领域同样合用。

全面超越GPT-4?一文详解Google新模型Gemini

Gemini 还可以帮助家长解决一项生活中非常头疼的问题:辅助孩子写作业。它可以识别试卷上的手写内容,然后判断答题是否正确,并能借助其强大的数学和推理才能,对其中的步骤或者概念做出详细的解释,真正实现“妈妈再也不用担心我的学习了”。

二、原生多模态

Gemini 的这些功用虽然看来与 GPT-4V 功用相同, 但 Google 在公布时特意强调了 Gemini「原生多模态 natively multimodal」的特性。

传统的多模态模型是在第二阶段的时候,将纯文本、纯视频、纯音频模型连接到一起,分别举行分歧模态的任务解决,再汇聚到一起;而 Gemini 从一开始就对分歧的模态举行预训练,然后再用额外的多模态数据对其举行微调。简单了解的话,就像办一个大型活动,传统多模态的做法是会场布置、餐饮、后勤、安保、接待、宣发分别找分歧的团队来完成,而 Gemini 则是一个团队包揽所有的工作,协作起来更顺利高效。

传统多模态大模型训练方法:

Genimi 原生多模态大模型训练方法:

这样的训练方法有助于 Gemini 无缝了解、操作和组合分歧类型的信息。

一般多模态大模型与音频交互时,会先通过语音识别系统将内容转换为文本举行了解,但这个过程中会损失很多细节,比如音色、发音和语气等。而 Gemini 凭借原生多模态模型可以实现端到端解决原始音频,识别这些细节,从而更好地了解并解决用户的需求。

Gemini 辅助用户选择正确的中文发音:

三、全面的生态布局

此次公布的 Gemini 1.0 准确来说是一个大模型系列,因为里面包含了 3 个分歧量级的优化版本:Ultra、Pro 和 Nano,分别对应分歧的使用场景和需求。

Gemini Ultra 是 Google 最大最强的模型,合用于高度复杂的任务,主要面向数据中心和企业应用;
Gemini Pro 是性能最佳的模型,广泛合用于各种任务;
Gemini Nano 是效率最高的模型,合用于手机等移动端设备。分为 1.8B 和 3.25B 两个版本,1.8B 面向低端手机,3.25B 面向高端手机。

全面超越GPT-4?一文详解Google新模型Gemini

① Gemini Ultra

Gemini Ultra 可以了解为 Gemini 1.0 的完全体,我们前面看到示范视频都是由它完成的。Ultra 在 32 组基准尝试中拿到了 30 个 SOTA(state of the art,是在特定任务中当前表现最好的方法或模型),性能超过了当前最先进的结果。

下图显示了 Gemini Ultra 与 GPT-4 的尝试数据对比,可以看到在通用、推理、数学、编码等才能的多个基准尝试中,Gemini Ultra 都略优于 GPT-4。

全面超越GPT-4?一文详解Google新模型Gemini

Gemini Ultra 当前还在举行广泛信任和安全检查,仅提供给选定的客户、开发人员、合作伙伴以及安全责任专家 ,预计将在明年初将推广给开发人员和企业客户。

② Gemini Pro

Gemini Pro 已经部署到 Google 聊天机器人 Bard 上了,这是 Bard 自推出以来最大的升级。虽然当前仅支持英文交互和美国地区使用,但相对 GPT-4 来说获取更方便。我问了 Bard 它是否是由 Gemini Pro 提供支持,Bard 也肯定了这个说法。

Bard 网页: https://bard.google.com/chat

全面超越GPT-4?一文详解Google新模型Gemini

内置 Gemini Pro 的 Bard 未来则会在 170 多个国家和地区提供,并支持更多分歧的语言。开发者和企业客户可以从 12 月 13 日起通过 Google AI Studio 或 Google Cloud Vertex AI 中的 Gemini API 访问 Gemini Pro。Google 还 计划在明年年初推出 Bard Advanced,由 Gemini Ultra 驱动,给用户带来最尖端的 AI 体验。

③ Gemini Nano

Gemini Nano 是专门针对端侧设备推出的轻量级版本,这也符合当下行业的发展趋势,国内像 VIVO、小米都已经推出了面向普通智能手机用户的端侧大模型与云端大模型的结合应用。

全面超越GPT-4?一文详解Google新模型Gemini

Google 旗下的 Pixel 8 Pro 手机会是第一款搭载 Gemini Nano 的智能手机,支持的功用包括:对录音机中的对话、采访、文稿等举行总结;在 Gboard 中提供高质量的回复;在 Google 相册中对人像举行改善优化;在云端对视频举行调色、降噪、模糊修复等操作。

除了 Google 生态本身的 App,Gemini Nano 还支持接入 Android 系统,第三方应用的开发者也能通过应用适配的方式调用手机自带的 Gemini 模型才能。

四、激烈的 AI 模型竞赛

Google 其实一直都是 AI 领域的领军者, 但 ChatGPT 和 GPT-4 的接连公布却多少让这位 AI 界的巨人有些措手不及。Google 在今年 3 月份推出 ChatGPT 对标产品 Bard 时,还因为公布会上示范效果不佳当场“翻车”,导致市场对其未来发展看低。

但 4 月份的时候,Google 直接把 2 个世界级的 AI 团队 Google Brain 和 DeepMind 合并成 Google DeepMind,汇合两个实验室的力量举行 AI 模型攻关,足见 Google 在大模型研发竞赛上必胜的决心。Gemini 的诞生是 Google 对自己在 AI 领域实力和领先地位的证明,同时也再一次将市场的目光拉回到自己身上。

全面超越GPT-4?一文详解Google新模型Gemini

当前市场对 Gemini 的反应还是非常积极的,认为它是 GPT-4V 领先地位的有力挑战者。由于 Gemini Ultra 模型尚未开放,我们无法尝试它是否真的像视频展示的那样强大,只能通过 Bard 和 GPT-4V 的对比来感受二者的差别。

一些专业人士根据实测对比结果推测,Gemini Pro 应该比 ChatGPT 3.5 更好,Ultra(尚未公布)比 GPT-4 更好,而当前 Gemini Pro 与 GPT-4 算是各有所长,但整体上略逊色于 GPT-4。

全面超越GPT-4?一文详解Google新模型Gemini

需要注意的是,当前也有很多人质疑 Gemini 的多模态才能。彭博社公布的一篇文章直接指出,谷歌的示范视频并非实时举行,也不是通过语音举行,而是通过使用视频画面的静态图像帧,以及通过文字提示制作的。而谷歌在随后公布声明,称视频内容并没有作假,只是为了呈现最佳的展示效果举行了剪辑,但这也已经让市场对 Gemini 才能的信任度下降,认为 Gemini 并无法超越 GPT-4。

全面超越GPT-4?一文详解Google新模型Gemini

而对我们普通用户来说,一方面是在 GPT-4、文心一格、Claude 之外又多一个免费好用的大模型,另一方面 Gemini 会刺激其他大模型的发展竞争,实现模型“增量降价”,总归是好事。

就在 Gemini 公布的后一天,字节跳动研究院高管在推特上发文称“一个比 Gemini 更强大的超强模型预计会随时到来”,虽然没有明说是哪一家的大模型,但据此我们也能看出 AI 模型的研发竞赛还在继续。

全面超越GPT-4?一文详解Google新模型Gemini

给TA打赏
共{{data.count}}人
人已打赏
应用

助力AI技巧共享,蚂蚁开源又一核心技巧“因果进修系统 OpenASCE”

2023-12-11 16:25:00

应用

第一波!2023年12月精选实用计划对象合集

2023-12-12 8:05:43

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索