谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

谷歌之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。谷歌现已推出 Gemini 1.5 Pro 公共预览版,并借此为其赋予了“耳朵”,从而帮助用户处理音频内容,例如可以直接上传一份音频文件让它来分析,或者上传一份财报电话会议录音或视频来让它总结。据称,这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。谷歌称,Gemini 1.5 Pro 可以理解复杂的指令,并且无需对

谷歌之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。

谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

谷歌现已推出 Gemini 1.5 Pro 公共预览版,并借此为其赋予了“耳朵”,从而帮助用户处理音频内容,例如可以直接上传一份音频文件让它来分析,或者上传一份财报电话会议录音或视频来让它总结。

谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

据称,这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。谷歌称,Gemini 1.5 Pro 可以理解复杂的指令,并且无需对模型进行微调。

当然,Gemini 1.5 Pro 目前仅限于 Vertex AI 用户体验,而 Gemini Ultra 则因为 Gemini 聊天机器人的原因为所有 Pro 用户提供服务。不过,尽管 Gemini Ultra 功能更多并且能够理解长指令,但处理速度不如 Gemini 1.5 Pro。

谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

谷歌推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

实际上,Gemini 1.5 Pro 并非唯一获得更新的谷歌大模型,辅助 Gemini 生成图像的文生图模型 Imagen 2 也将加入图片修复和扩充功能,使用户可以添加或移除图像元素。

IT之家注意到,谷歌还为 Imagen 模型的所有图片提供了数字水印功能“SynthID”。简单来说,SynthID 在图像中添加了一个用户不可见的防伪标识,但可以通过检测工具来确认其来源。

值得注意的是,Imagen 的许多新功能,例如图片修复和扩充,已经出现在其他文生图模型中,例如 Stability AI 的 Stable Diffusion 和 Getty 公司的 Generative AI by iStock 上,更不用说最新款三星 Galaxy 手机还有类似的功能。

谷歌表示,他们还将在公开预览中尝试将 AI 响应与谷歌搜索结果结合,以便利用最新情报进行解答。

参考资料:

《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》

相关资讯

谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机

谷歌官方表示,由于硬件限制,AI 语言大模型 Gemini Nano 不会上线谷歌 Pixel 8 手机,但未来会出现在其他高端设备上。IT之家获悉,Gemini 的前身是谷歌在 2023 年 2 月发布的聊天机器人 Bard,后者在 2024 年 2 月 8 日更名为 Gemini。谷歌计划将 Gemini 整合进旗下所有产品,并加入 Google One 订阅中。Gemini Nano 作为谷歌为移动设备推出的 Gemini 大模型版本,能够处理不需要连接外部服务器的本地任务,仅支持谷歌 Pixel 8 Pro

谷歌:手机运行人工智能模型将占用大量内存

谷歌在 3 月初发布了一个奇怪的声明,称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中,只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似,但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解,因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机,并且还专门针对智能手机设计了“Gemini Nano”模型,然而这两者居然无法兼容运行。几周后,谷歌似乎开始松口,宣布即将在 6 月的季度更新中为 P

谷歌 Gemini 家族添 Flash 新成员:平衡规模和能力、支持多模态,单次可分析 3 万行代码

谷歌公司今天扩充 Gemini 家族成员,推出了全新的 Gemini 1.5 Flash 模型,重点优化了该模型的速度和效率。谷歌 DeepMind 首席执行官德米斯・哈萨比斯(Demis Hassabis)在一篇博客文章中写道:Gemini 1.5 Flash 擅长摘要、聊天应用、图像和视频字幕、从长文档和表格中提取数据等。哈萨比斯补充说,谷歌之所以创建 Gemini 1.5 Flash,是因为开发人员需要一个比谷歌今年 2 月发布的 Gemini 1.5 Pro 更轻便、更便宜的模型。IT之家注:Gemini