google推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

google之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。google现已推出 Gemini 1.5 Pro 公共预览版,并借此为其赋予了“耳朵”,从而帮助用户处理音频内容,例如可以直接上传一份音频文件让它来分析,或者上传一份财报电话会议录音或视频来让它总结。据称,这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。google称,Gemini 1.5 Pro 可以懂得复杂的指令,并且无需对

google之前在 Google Next 大会上宣布将首次通过其 AI 应用平台 Vertex AI 向公众开放 Gemini 1.5 Pro。

google推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

google现已推出 Gemini 1.5 Pro 公共预览版,并借此为其赋予了“耳朵”,从而帮助用户处理音频内容,例如可以直接上传一份音频文件让它来分析,或者上传一份财报电话会议录音或视频来让它总结。

google推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

据称,这个 Gemini 系列中定位“中量级”模型的版本在性能上已经超越了自家更大的模型 ——Gemini Ultra。google称,Gemini 1.5 Pro 可以懂得复杂的指令,并且无需对模型进行微调。

当然,Gemini 1.5 Pro 目前仅限于 Vertex AI 用户体验,而 Gemini Ultra 则因为 Gemini 聊天机器人的原因为所有 Pro 用户提供服务。不过,尽管 Gemini Ultra 性能更多并且能够懂得长指令,但处理速度不如 Gemini 1.5 Pro。

google推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

google推出 Gemini 1.5 Pro 公共预览版,现已支持处理音频

实际上,Gemini 1.5 Pro 并非唯一获得更新的google大模型,辅助 Gemini 生成图象的文生图模型 Imagen 2 也将加入图片建设和裁减性能,使用户可以增加或移除图象元素。

IT之家注意到,google还为 Imagen 模型的所有图片提供了数字水印性能“SynthID”。简单来说,SynthID 在图象中增加了一个用户不可见的防伪标识,但可以通过检测工具来确认其来源。

值得注意的是,Imagen 的许多新性能,例如图片建设和裁减,已经出现在其他文生图模型中,例如 Stability AI 的 Stable Diffusion 和 Getty 公司的 Generative AI by iStock 上,更不用说最新款三星 Galaxy 手机还有类似的性能。

google表示,他们还将在公开预览中尝试将 AI 响应与google搜索结果结合,以便利用最新情报进行解答。

参考资料:

《Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context》

给TA打赏
共{{data.count}}人
人已打赏
AI

联发科推出生成式 AI 服务平台“达哥”,支持“最强繁体中文大模型”MR BreeXe

2024-4-9 15:09:56

AI

Instagram 短视频板块 Reels 测试 AI 同传性能,用户可用自己声音“说外语”

2024-4-9 21:01:39

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索