谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

2024-08-14 12:26

翻车，大翻车。就在今天凌晨，谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o，可以说是吸足了科技圈的眼球。在官网发布的 demo 中，拍照问答功能的效果是这样的：它大致实现的功能，是用手机拍摄演唱会的海报，并让 Gemini 查看用户的日历，看看行程是否适合参加。以及还可以基于此进行一系列后续的操作，包括定时间查票价等等。然而…… 当来到发布会现场演示环节的时候，画风却 180° 大变样。请看 VCR：第一次：失败了。第二次：失败了。第三次：换手机，成功了。嗯…

翻车，大翻车。就在今天凌晨，谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o，可以说是吸足了科技圈的眼球。在官网发布的 demo 中，拍照问答功能的效果是这样的：

它大致实现的功能，是用手机拍摄演唱会的海报，并让 Gemini 查看用户的日历，看看行程是否适合参加。

以及还可以基于此进行一系列后续的操作，包括定时间查票价等等。

然而…… 当来到发布会现场演示环节的时候，画风却 180° 大变样。

请看 VCR：

第一次：失败了。

第二次：失败了。

第三次：换手机，成功了。

嗯…… 小哥表情，肉眼可见的有点慌。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

就连知名科技媒体 TechCrunch 都配上了这样的 emoji：

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

甚至还有网友开启了辣评模式：

我 10 秒钟就能搜索我的日历。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

当然，这只是今天 Made by Google 的一个小插曲。

关于 Gemini Live 的更多内容，我们继续往下看。

谷歌版 Her 的全貌

正如我们刚才提到的，Gemini Live 和 GPT-4o 的功能十分相似。

除了“拍照问答”之外，它也可以做到实时对话，甚至在 Gemini 回复过程中进行打断。

据了解，目前 Gemini Live 的功能已经在安卓系统中向 Advanced 订阅者开放（仅限英语）。

未来几周，这个功能会陆续扩展到更多语言并且向 iOS 开放。

在对话声音方面，Gemini Live 推出了 10 种新的声音供选择，效果是这样的：

在操作方面，由于 Gemini 已经完全集成到了系统中，所以只需长按电源按钮或说“Hey Google”，就可以调用了。

例如在写邮件的过程中，让 Gemini 帮你生成配图，效果如下：

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

不过对于这项功能，外媒们的评价却是褒贬不一。

例如 The Verge 的一位作者在亲测后给出的标题是 ——

Gemini Live 比 Google 快，但更尴尬。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

具体原因是作者在一次为期三天的公路旅行中，汽车的音频系统突然失效。

使用原先的谷歌助手寻找解决方案花费了至少五分钟，而 Gemini Live 仅耗时 15 秒。

但对话过程中的 Gemini Live 的持续发言和需要用户主动打断的交互方式，却让作者感到尴尬。

他认为：

声音和说话方式过于人性化，以至于在打断它时感到不自在。

与 Gemini Live 的互动中投入了更多情感，而不是将其作为解决问题的工具。

无独有偶，对于 Gemini Live 在云端运行这个点，华尔街日报也给出了犀利的评价 ——

对话上的进步，功能上的退步。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

具体到技术层面，GPT-4o 是一个端到端的系统，但从谷歌发布的内容来看，Gemini Live 则并非如此。

而是将 STT、VAD、LLM 和 TTS 系统做了集成：

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

除此之外，谷歌所发布的新 Pixel 系列手机中，也出现了 Gemini Live 的身影。

包括 Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

AI 功能方面，谷歌的 Pixel 手机在拍照上增加了一个叫“Add Me”的功能。

可以用增强现实（AR）和 AI 技术，可以把两张不同照片中的人物“塞”到一起。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

谷歌为什么追不上 OpenAI？

虽然谷歌这次发布 Gemini Live，算是对 OpenAI GPT-4o 的一种应战，但自从大模型时代拉开序幕以来，我们可以看到一个非常明显的一种趋势 ——

谷歌，跟不上 OpenAI 的脚步。

首先是在最为关键的 ChatGPT 发布的这个节点上，OpenAI 成为了开拓者，但谷歌随后发布的 Bard，和这次 Gemini Live 很相似，后续出现了翻车情况。

而后近一年半多的时间来，似乎所有重磅模型、重磅应用的发布，都是 OpenAI 在引领。

反观谷歌这边，不仅是技术呈现出步步慢的状态；甚至在舆论上，还出现了被 OpenAI 用一个人事变动（Ilya 离职）消息盖过谷歌年度最大活动（I / O 大会）热度的情况。

那么谷歌在大模型时代为什么不行了？

对此，前谷歌 CEO Eric Schmidt（2001 年至 2011 年任职）在斯坦福最新的演讲中表达了他的观点：

谷歌非常重视工作与生活的平衡，例如允许员工居家办公。

但创业公司，他们工作真的很拼。

甚至还有网友爆料称：

我兄弟是谷歌顶级 AI 程序员，他有 3 个全职工作，每天只在谷歌这边花 2 个小时。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

那么你对此怎么看，欢迎在评论区留言讨论。

参考链接：

[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[2]https://x.com/GoogleDeepMind/status/1823409674739437915

[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event

[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones

本文来自微信公众号：微信公众号（ID：QbitAI），作者：关注前沿科技

谷歌向 Pixel 9 /三星 Galaxy S25 推出 Gemini Live AI“实时拍摄”及识图导购助手功能

谷歌Gemini Live AI推出实时拍摄和识图导购功能，支持Pixel 9和Galaxy S25，可识别物体并比价购物。#谷歌AI##智能手机#

4/8/2025 7:36:23 AM

漾仔

谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机

谷歌官方表示，由于硬件限制，AI 语言大模型 Gemini Nano 不会上线谷歌 Pixel 8 手机，但未来会出现在其他高端设备上。IT之家获悉，Gemini 的前身是谷歌在 2023 年 2 月发布的聊天机器人 Bard，后者在 2024 年 2 月 8 日更名为 Gemini。谷歌计划将 Gemini 整合进旗下所有产品，并加入 Google One 订阅中。Gemini Nano 作为谷歌为移动设备推出的 Gemini 大模型版本，能够处理不需要连接外部服务器的本地任务，仅支持谷歌 Pixel 8 Pro

3/8/2024 5:56:25 PM

归泷（实习）

谷歌：手机运行人工智能模型将占用大量内存

谷歌在 3 月初发布了一个奇怪的声明，称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中，只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似，但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解，因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机，并且还专门针对智能手机设计了“Gemini Nano”模型，然而这两者居然无法兼容运行。几周后，谷歌似乎开始松口，宣布即将在 6 月的季度更新中为 P

3/31/2024 12:08:38 PM

远洋

资讯热榜

上海AI实验室开源InternVL3系列多模态大型语言模型 Haisnap横空出世，小白用户也能轻松打造AI应用「交交」媲美GPT-4o！上海交大推出口语对话情感大模型，首个纯学术界自研！ OpenAI开源超Agent:Codex CLI,五小时内破 5000 颗星 ChatGPT重磅更新：新增图像库功能，可查看自己用GPT生成的所有图片本地部署DeepSeek+DiFy平台构建智能体应用 OPPO 小布助手网页版上线，接入满血版 DeepSeek kimi开源视觉语言模型 Kimi-VL 与 Kimi-VL-Thinking，多项基准超越 GPT-4o

标签云

人工智能 OpenAI AIGC AI ChatGPT DeepSeek AI绘画数据机器人谷歌模型大模型 Midjourney 智能用户学习开源 GPT 微软 Meta AI创作图像技术论文 Stable Diffusion 马斯克 Gemini 算法蛋白质生成式芯片代码英伟达腾讯神经网络计算研究 Sora AI for Science 3D Anthropic AI设计机器学习 GPU 开发者场景华为预测伟达 Transformer 百度苹果深度学习 AI视频模态人形机器人 xAI 驾驶字节跳动文本搜索大语言模型 Claude Copilot 具身智能神器推荐 LLaMA 算力安全应用视频生成科技视觉亚马逊干货合集 2024 AGI 特斯拉训练大型语言模型

顶部

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

谷歌版 Her 的全貌

谷歌为什么追不上 OpenAI？

相关资讯

谷歌向 Pixel 9 /三星 Galaxy S25 推出 Gemini Live AI“实时拍摄”及识图导购助手功能

谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机

谷歌：手机运行人工智能模型将占用大量内存