Gemini Live 对标 GPT-4o,谷歌 AI 手机全家桶上线。
在 GPT-4o 进 iPhone 之前,谷歌 Gemini 抢先了一步完成了手机版的落地。
周三凌晨,在人们期待 OpenAI 「草莓大模型」的时候,谷歌在 Made by Google 活动上正式发布了 Gemini Live,以及一系列 Pixel 硬件产品。
今天的活动,谷歌充满信心地进行了 100% 现场演示,虽然出现了一些小问题。
两次让手机识图(不过用的是三星),都失败了。
不过正如谷歌所说的,我们已经进入了「Gemini 的时代」。
在 Pixel 9 系列之后,今天发布的一系列 Gemini AI 功能也将随安卓 15 出现在各种 Android 手机上。
Gemini Live:对标 GPT-4o,即刻上线
Gemini Live 是谷歌针对 OpenAI 高级语音模式推出的一款产品,该功能与 ChatGPT 几乎完全相同,之前一直处于 alpha 测试阶段。
Gemini Live 提供了一种移动对话体验,可以让用户和 Gemini 展开自由流畅的对话,甚至可以像在普通电话中一样打断或改变话题,而无需打字。
谷歌在博客中这样描述:你可以与 Gemini Live (通过 Gemini app)交谈,并从 10 种新的自然声音中选择一种来回应,(而 OpenAI 仅提供 3 种声音)。你甚至可以按照自己的节奏说话,或者在回答过程中打断它并提出其他问题,就像在平时对话中一样。
Gemini Live 是可以直接唤醒的,你可以在应用程序在后台运行或手机锁屏时继续与 Gemini 对话,且对话可以随时暂停和恢复。
Gemini Live 还将与多种安卓应用的功能(如 Keep)集成,从而提高 Gemini 的可用性。
今日起,谷歌开始在 Android 手机的 Gemini Advanced 用户推出该功能,仅限英语,并将在未来几周内扩展到 iOS 和更多语言版本。
不过,在现场演示中,当现场人员问到演唱会海报的相关信息时,Gemini Live 失败了两次,需要演示者更换手机才能正常工作。虽然演示过程中遇到了一些问题,但最终成功了,Gemini Live 最终从图片中提取相关信息并连接日历,为用户提供了准确结果。
值得注意的是,据产品经理 Leland Rechis 介绍,谷歌不允许 Gemini Live 模仿这 10 种声音以外的任何声音。谷歌这样做可能是为了避免与版权法发生冲突。此前,OpenAI 就因为使用了寡姐的声音而被后者告到法庭。
总体而言,该功能似乎是一种比使用简单的 Google 搜索更自然地深入研究主题的好方法。谷歌指出,Gemini Live 是 Project Astra 迈出的一步,Project Astra 是该公司在 Google I/O 期间首次亮相的多模态 AI 模型。目前,Gemini Live 仅支持语音对话,谷歌希望在未来增加实时视频理解功能。
𝗧𝗲𝗻𝘀𝗼𝗿 𝗚𝟰芯片加持,谷歌硬件全家桶来了
在 Gemini Live 推出的同时,谷歌也推出了新一代智能硬件设备,比苹果和华为更早。
今天凌晨新发布的硬件包括 Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL,还有一款折叠屏手机 Pixel 9 Pro Fold,它们均由全新的 Google Tensor G4 芯片提供支持,可以带来各种生成式 AI 能力。
Pixel 9 手机采用全新外观,将摄像头置于正面和中心位置,改进了标志性的摄像头模组,提升了手感。谷歌宣称,这些手机的耐用性是 Pixel 8 的两倍。
这一次,Pixel Pro 机型首次提供两种不同尺寸:Pixel 9 Pro(6.3 英寸)和 Pixel 9 Pro XL(6.8 英寸),均配备了 Super Actua 显示屏、42 MP 前置摄像头。除了显示屏尺寸、充电速度和电池外,Pixel 9 Pro 和 Pixel 9 Pro XL 拥有相同的规格和功能。
值得注意的是,Pixel 9 手机采用谷歌全新的定制芯片 Tensor G4。这是全新一代高性能手机芯片,旨在改善日常用例,例如更快地打开应用程序、浏览网页等等。
Tensor G4 由 Google DeepMind 设计,三星代工生产,使用 Arm 架构。经过优化,G4 可运行最先进的人工智能模型。它将是第一款运行多模态 Gemini Nano 模型的处理器 —— 仅在手机端侧,就可以实现大模型理解文本、图像和音频等任务。
从目前的消息可知,Tensor G4 与前代产品相同,使用的核心是当前一代的技术 —— 这意味着它很快会在 9 月份成为落后的芯片组,名为 Mali 的静态 GPU 核心也意味着不支持光线追踪(支持的版本名为 Immortalis)。尽管如此,自己和自己比,相对前一代产品的性能提升还是很可观的。
当然,作为 DeepMind 参与研发的芯片,Tensor G4 拥有不错的 AI 算力,谷歌透露它拥有「业界领先」的每秒 45 token 输出速度。
为了确保设备上的 AI 体验运行顺畅,谷歌也升级了 Pixel 9 系列的内存,它们配备 12GB RAM,Pixel 9 Pro 和 Pixel 9 Pro XL 配备 16GB RAM。
Pixel 系列一直是谷歌技术应用的标杆,新的手机接入了 Gemini Live,且将在 8 月开卖。谷歌表示,Pixel 9 Pro、Pixel 9 Pro XL 和 Pixel 9 Pro Fold 用户在购买手机后均可享受一年的 Gemini Advanced 订阅。看来相比搭载 OpenAI 大模型的 iPhone 16 系列,谷歌这次做到了快人一步。
谷歌介绍了 Pixel 的一系列生成式 AI 能力。
其中,Pixel Studio 可以帮助你在手机上就能将想法转化为图像。它由运行在 Tensor G4 上的设备端扩散模型和云端的 Imagen 3 文本到图像模型相结合而成。
谷歌的文生图新模型 Imagen 3 最早是在 5 月份的 I/O 大会上发布的。该模型在生成细节、光照、干扰等方面进行了优化升级,并且理解 Prompt 的能力显著增强。随着今天的发布会,Google DeepMind 在 arXiv 上提交了 Imagen 3 的论文:
论文链接:https://arxiv.org/abs/2408.07009
Pixel Screenshots 可帮助你保存、整理和回忆想要记住的重要信息,以供日后使用。
假设你有朋友喜欢松鼠,她即将过生日。你可以在 Google Chrome 上寻找礼物,截取松鼠衬衫、松鼠杯垫等所有松鼠相关的东西的屏幕截图。Pixel Screenshots 将分析所有这些图像的内容,并帮你在应用中搜索这些信息。随后,你只需打开应用并搜索「松鼠」,这些结果就会弹出。它还会包含你找到的所有内容的链接,以及正在查看的内容的摘要和相关信息。
人们在手机上最常做的事情之一就是查看天气。Pixel Weather 可以提供更加精确的天气信息,Gemini Nano 还会生成自定义人工智能天气报告,让人们了解当天的天气情况。
在所有手机都卷的拍照上,Pixel 9 增加了 AI 拍摄功能来提升出片效率。
通常,集体照中会遗漏一位指定摄影师。使用 Add Me,你就可以与在场的每个人合影,而无需携带三脚架或向陌生人寻求帮助。
利用重新设计的 Panorama,现在即使在弱光下也能拍摄出细节丰富的照片。这是所有智能手机上质量最高的弱光全景图。
此外,Google Photos 中的 Magic Editor 具有新的编辑功能,你可以拍摄出想要的照片,自动取景功能可以重新构图,你只需输入想要看到的内容(例如:在空旷的田野中添加野花)即可以给照片重新构图,把想法变为现实。
大模型的智能通话记录现在也被集成在了安卓系统重。Clear Calling 功能进一步提高了音频质量,新的通话记录(Call Notes)功能会在用户挂断电话后立即发送私人摘要和完整的通话记录。因此,当你接到回电时,无需手忙脚乱地寻找纸笔进行记录。为了保护隐私,通话记录完全在设备上运行。
最新的 Pixel 9 设备是首批配备全新卫星 SOS 功能的 Android 手机,因此,即使没有移动网络,用户也可以通过卫星联系紧急救援人员并分享位置。卫星 SOS 将首先在美国的 Pixel 9 设备上推出,无论你使用的运营商套餐是什么。在 Pixel 上的前两年,此功能将免费提供。
最后是定价,Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL 均已开放预订,起价分别为 799 美元、999 美元和 1099 美元。Pixel 9 和 Pixel 9 Pro XL 将于 8 月 22 日在 Google 商店和谷歌零售合作伙伴上市。Pixel 9 Pro 将于 9 月 4 日在美国上市,同时 Pixel 9 Pro Fold 也将在接下来的几周内在其他市场上市。
参考内容:
https://blog.google/products/pixel/google-pixel-9-pro-xl/
https://www.androidauthority.com/google-tensor-g4-explained-3466184/