谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

翻车，大翻车。就在今天凌晨，谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o，可以说是吸足了科技圈的眼球。在官网发布的 demo 中，拍照问答功能的效果是这样的：它大致实现的功能，是用手机拍摄演唱会的海报，并让 Gemini 查看用户的日历，看看行程是否适合参加。以及还可以基于此进行一系列后续的操作，包括定时间查票价等等。然而…… 当来到发布会现场演示环节的时候，画风却 180° 大变样。请看 VCR：第一次：失败了。第二次：失败了。第三次：换手机，成功了。嗯…

翻车，大翻车。就在今天凌晨，谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o，可以说是吸足了科技圈的眼球。在官网发布的 demo 中，拍照问答功能的效果是这样的：

它大致实现的功能，是用手机拍摄演唱会的海报，并让 Gemini 查看用户的日历，看看行程是否适合参加。

以及还可以基于此进行一系列后续的操作，包括定时间查票价等等。

然而…… 当来到发布会现场演示环节的时候，画风却 180° 大变样。

请看 VCR：

第一次：失败了。

第二次：失败了。

第三次：换手机，成功了。

嗯…… 小哥表情，肉眼可见的有点慌。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

就连知名科技媒体 TechCrunch 都配上了这样的 emoji：

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

甚至还有网友开启了辣评模式：

我 10 秒钟就能搜索我的日历。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

当然，这只是今天 Made by Google 的一个小插曲。

关于 Gemini Live 的更多内容，我们继续往下看。

谷歌版 Her 的全貌

正如我们刚才提到的，Gemini Live 和 GPT-4o 的功能十分相似。

除了“拍照问答”之外，它也可以做到实时对话，甚至在 Gemini 回复过程中进行打断。

据了解，目前 Gemini Live 的功能已经在安卓系统中向 Advanced 订阅者开放（仅限英语）。

未来几周，这个功能会陆续扩展到更多语言并且向 iOS 开放。

在对话声音方面，Gemini Live 推出了 10 种新的声音供选择，效果是这样的：

在操作方面，由于 Gemini 已经完全集成到了系统中，所以只需长按电源按钮或说“Hey Google”，就可以调用了。

例如在写邮件的过程中，让 Gemini 帮你生成配图，效果如下：

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

不过对于这项功能，外媒们的评价却是褒贬不一。

例如 The Verge 的一位作者在亲测后给出的标题是 ——

Gemini Live 比 Google 快，但更尴尬。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

具体原因是作者在一次为期三天的公路旅行中，汽车的音频系统突然失效。

使用原先的谷歌助手寻找解决方案花费了至少五分钟，而 Gemini Live 仅耗时 15 秒。

但对话过程中的 Gemini Live 的持续发言和需要用户主动打断的交互方式，却让作者感到尴尬。

他认为：

声音和说话方式过于人性化，以至于在打断它时感到不自在。

与 Gemini Live 的互动中投入了更多情感，而不是将其作为解决问题的工具。

无独有偶，对于 Gemini Live 在云端运行这个点，华尔街日报也给出了犀利的评价 ——

对话上的进步，功能上的退步。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

具体到技术层面，GPT-4o 是一个端到端的系统，但从谷歌发布的内容来看，Gemini Live 则并非如此。

而是将 STT、VAD、LLM 和 TTS 系统做了集成：

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

除此之外，谷歌所发布的新 Pixel 系列手机中，也出现了 Gemini Live 的身影。

包括 Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

AI 功能方面，谷歌的 Pixel 手机在拍照上增加了一个叫“Add Me”的功能。

可以用增强现实（AR）和 AI 技术，可以把两张不同照片中的人物“塞”到一起。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

谷歌为什么追不上 OpenAI？

虽然谷歌这次发布 Gemini Live，算是对 OpenAI GPT-4o 的一种应战，但自从大模型时代拉开序幕以来，我们可以看到一个非常明显的一种趋势 ——

谷歌，跟不上 OpenAI 的脚步。

首先是在最为关键的 ChatGPT 发布的这个节点上，OpenAI 成为了开拓者，但谷歌随后发布的 Bard，和这次 Gemini Live 很相似，后续出现了翻车情况。

而后近一年半多的时间来，似乎所有重磅模型、重磅应用的发布，都是 OpenAI 在引领。

反观谷歌这边，不仅是技术呈现出步步慢的状态；甚至在舆论上，还出现了被 OpenAI 用一个人事变动（Ilya 离职）消息盖过谷歌年度最大活动（I / O 大会）热度的情况。

那么谷歌在大模型时代为什么不行了？

对此，前谷歌 CEO Eric Schmidt（2001 年至 2011 年任职）在斯坦福最新的演讲中表达了他的观点：

谷歌非常重视工作与生活的平衡，例如允许员工居家办公。

但创业公司，他们工作真的很拼。

甚至还有网友爆料称：

我兄弟是谷歌顶级 AI 程序员，他有 3 个全职工作，每天只在谷歌这边花 2 个小时。

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

那么你对此怎么看，欢迎在评论区留言讨论。

参考链接：

[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[2]https://x.com/GoogleDeepMind/status/1823409674739437915

[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event

[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones

本文来自微信公众号：微信公众号（ID：QbitAI），作者：关注前沿科技

{{userData.name}}已认证

谷歌版 Her 大翻车：试了 3 次且换手机才成功… 网友：我手动只需 10 秒

谷歌版 Her 的全貌

谷歌为什么追不上 OpenAI？

AI 斗图神器：普通视频秒变 meme，手绘动画轻松融入

OpenAI 找回场子：chatgpt-4o-latest AI 模型力压谷歌 Gemini 1.5 Pro，多项跑分重夺第一

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

腾讯云 ES：一站式 RAG 方案，开启智能搜索新时代

Deepseek v3正式发布：用557.6万美金超越Claude 3.5 Sonnet的惊人杰作

劲爆！理想汽车转做大模型，主持人质疑李想是否跟风：你有理想吗？李想自曝三次创业心得：终极是硅基家人，要做中国第一！

2024年AI 编程现在可以做到什么程度？

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！