2024 年google I / O 开发者大会在公司总部附近的海岸线圆形剧场如期召开。此次大会上出现频率最高的词便是 AI,据google Gemini AI 模型的统计,整个演说中 AI 一词被提到了 121 次,但实际上可能远不止于此。在这场开发者大会上,google推出了多个引人注目的大模型和 AI 新功用。
1、Gemini AI 系列模型
在本次开发者大会上发布了包括 Gemini 1.5 Pro、轻量级 Gemini 1.5 Flash 和 Gemini Nano 在内新版本的 Gemini AI 系列模型。
Gemini 1.5 Pro 是一种以上下文窗口、多模态为机制的推理大模型,目前已经具备突破性的 100 万个 Tokens 长上下文窗口,可以明白最多 1500 页的大型文档,或总结 100 封电子邮件,不久它将能够处理一小时的视频内容或超过 30000 行的代码库。官方宣称今年晚些时候将扩大上下文窗口至 200 万 Tokens,进一步扩展其多模态信息处理能力,可实现对 2 小时视频、22 小时音频、超过 6 万行代码或者 140 多万单词内容举行处理。这一前所未有的超强 AI 模型将会开放给个人用户使用。
Gemini 1.5 Flash 是为满足某些应用程序更低延迟和更低服务成本需求而推出的全新版本。其原理是通过一个名为“蒸馏”(distillation)的过程来实现,即把 Gemini 1.5 Pro 中最基本的知识和技能转移到更小的模型上 ,并针对模型的速度和效率举行了重点优化。因此 Gemini 1.5 Flash 和 Pro 版本一样具备对大量信息举行多模态推理功用和长上下文窗口。该模型并非真正面向消费者,是开发人员利用google设计技术构建自己的人工智能产品和服务的一种更快、更便宜的方式。
Gemini Nano 是一种可在设备要地运行的离线 AI 模型,google早在去年就为 Pixel 8 和 Pixel 8 Pro 手机推出了轻量级可在要地运行的 Gemini Nano 模型,未来将进一步支持更多 Pixel 和安卓设备。大会上也提到将在 Chrome 126 浏览器中引入 Gemini Nano,实现要地文本生成等功用。此模型不仅具备文字明白能力总结和提取短信、邮件和文件中的信息,还有具备通过视觉和听觉明白信息的能力,并具备反馈功用。
2、影像生成模型 Veo 和 Imagen 3
Veo 模型可以生成各种具备电影感、视觉风格独特、高质量且时常超过一分钟的 1080p 分辨率视频。凭借其对自然语言和视觉语义的深入明白,可以读懂诸如“延时拍摄”或“风景空中拍摄”等相关电影专业术语。
用户可以根据自身需求使用文本、图像或视频提醒来引导 Veo 可以创建出一致且连贯的镜头,较好地展现出人物、动物和物体在整个画面中的动态。
google首席执行官德米斯-哈萨比斯(Demis Hassabis)同时表示,视频结果可以通过额外的提醒举行完善,google也正在探索更多功用,使 Veo 能够制作故事板和更长的场景。
Imagen 3 模型可以更好明白自然语言、提醒背后的意图,并融合较长文字提醒中的小细节产生“逼真且栩栩如生的图像”,与之前 Imagen 2 模型相比,分散注意力视觉伪影要少得多。
为了打消人们对 Deepfake 可能性的担忧,google表示,Imagen 3 将使用 DeepMind 开发的 SynthID 方法,在媒体上应用隐形加密水印。
上述两个模型,目前分别仅限特定用户在 videoFX 以及 ImageFX 工具中举行私人预览,但google表示,Imagen 3 模型将很快提供给使用google企业生成式人工智能开发平台 Vertex AI 的开发人员和企业客户。
3、全面拥抱 AI
IT之家从大会获悉,google还提及将发布及时 AI 帮忙。即从今年夏天开始,Gemini live 将支持语音及时交互,并计划在今年晚些时候推出及时视频交互功用。
google还计划在未来几个月内推出名为 Project Astra 的 AI 帮忙功用,类似于 GPTs,能够与google生态系统的其他产品举行联动;在 Gemini 推出名为“Gems”的个性化选项,可以让用户定制 Gemini 帮忙角色,Gems 功用可以让用户迭代的聊天机器人,在保留指定特征的情况下帮助你完成某些任务。
google也将 Gemini 模型融入到了自家的 Calendar、Tasks 和 Keep 等软件产品中,为用户带来更丰富的 AI 功用。在许多 Google App 侧边栏将出现一个切换至 Gemini AI 的按钮,Gemini 帮忙可以回答问题,完成诸如撰写电子邮件或者文档,并提供长文字或是短讯息内容的概要。
google搜索新增 AI Overviews 搜索体验,前身是 Search Generative Experiences,让用户通过提问、聊天的方式举行 AI 搜索,即为用户在线查询提供人工智能生成答案,在美国地区,google主要通过和 Reddit 社区合作,解答用户提问。本周开始向美国地区开放,后续会推广到更多国家和地区。google周二表示,这是其搜索引擎 25 年来最大更新之一。
AI 防欺骗功用,在设备要地运行 Gemini Nano 模型,在通话中匹配查找欺诈性语言和其他通常与欺骗有关的对话模式,如果遇到疑似欺骗电话,就会发出警报提醒用户,因 Gemini Nano 模型是离线的要地化模型,也不用担心会造成隐私泄露的问题。
结语
本次google I / O 开发者大会新发或是改进的 AI 新功用,其背后都离不开 Gemini AI 系列模型对其的支持,正如大会开头google CEO 桑達・皮采 (Sundar Pichai) 所说,google已经全面步入了 Gemini 时代。
根据google的说法,Gemini 已与 15 个用户数量达 5 亿以上的google产品举行了融合,为每个用户提供了创造未来的机会,Gemini 会给更多使用者工作和生活带来更多可能性。