谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

翻车,大翻车。就在今天凌晨,谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o,可以说是吸足了科技圈的眼球。在官网发布的 demo 中,拍照问答功能的效果是这样的:它大致实现的功能,是用手机拍摄演唱会的海报,并让 Gemini 查看用户的日历,看看行程是否适合参加。以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。然而…… 当来到发布会现场演示环节的时候,画风却 180° 大变样。请看 VCR: 第一次:失败了。第二次:失败了。第三次:换手机,成功了。嗯…

翻车,大翻车。就在今天凌晨,谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o,可以说是吸足了科技圈的眼球。在官网发布的 demo 中,拍照问答功能的效果是这样的:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

它大致实现的功能,是用手机拍摄演唱会的海报,并让 Gemini 查看用户的日历,看看行程是否适合参加。

以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。

然而…… 当来到发布会现场演示环节的时候,画风却 180° 大变样。

请看 VCR:

第一次:失败了。

第二次:失败了。

第三次:换手机,成功了。

嗯…… 小哥表情,肉眼可见的有点慌。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

就连知名科技媒体 TechCrunch 都配上了这样的 emoji:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

甚至还有网友开启了辣评模式:

我 10 秒钟就能搜索我的日历。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

当然,这只是今天 Made by Google 的一个小插曲。

关于 Gemini Live 的更多内容,我们继续往下看。

谷歌版 Her 的全貌

正如我们刚才提到的,Gemini Live 和 GPT-4o 的功能十分相似。

除了“拍照问答”之外,它也可以做到实时对话,甚至在 Gemini 回复过程中进行打断。

据了解,目前 Gemini Live 的功能已经在安卓系统中向 Advanced 订阅者开放(仅限英语)。

未来几周,这个功能会陆续扩展到更多语言并且向 iOS 开放。

对话声音方面,Gemini Live 推出了 10 种新的声音供选择,效果是这样的:

操作方面,由于 Gemini 已经完全集成到了系统中,所以只需长按电源按钮或说“Hey Google”,就可以调用了。

例如在写邮件的过程中,让 Gemini 帮你生成配图,效果如下:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

不过对于这项功能,外媒们的评价却是褒贬不一。

例如 The Verge 的一位作者在亲测后给出的标题是 ——

Gemini Live 比 Google 快,但更尴尬。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

具体原因是作者在一次为期三天的公路旅行中,汽车的音频系统突然失效。

使用原先的谷歌助手寻找解决方案花费了至少五分钟,而 Gemini Live 仅耗时 15 秒。

但对话过程中的 Gemini Live 的持续发言和需要用户主动打断的交互方式,却让作者感到尴尬。

他认为:

声音和说话方式过于人性化,以至于在打断它时感到不自在。

与 Gemini Live 的互动中投入了更多情感,而不是将其作为解决问题的工具。

无独有偶,对于 Gemini Live 在云端运行这个点,华尔街日报也给出了犀利的评价 ——

对话上的进步,功能上的退步。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

具体到技术层面,GPT-4o 是一个端到端的系统,但从谷歌发布的内容来看,Gemini Live 则并非如此。

而是将 STT、VAD、LLM 和 TTS 系统做了集成:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

除此之外,谷歌所发布的新 Pixel 系列手机中,也出现了 Gemini Live 的身影。

包括 Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

AI 功能方面,谷歌的 Pixel 手机在拍照上增加了一个叫“Add Me”的功能。

可以用增强现实(AR)和 AI 技术,可以把两张不同照片中的人物“塞”到一起。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

谷歌为什么追不上 OpenAI?

虽然谷歌这次发布 Gemini Live,算是对 OpenAI GPT-4o 的一种应战,但自从大模型时代拉开序幕以来,我们可以看到一个非常明显的一种趋势 ——

谷歌,跟不上 OpenAI 的脚步。

首先是在最为关键的 ChatGPT 发布的这个节点上,OpenAI 成为了开拓者,但谷歌随后发布的 Bard,和这次 Gemini Live 很相似,后续出现了翻车情况。

而后近一年半多的时间来,似乎所有重磅模型、重磅应用的发布,都是 OpenAI 在引领。

反观谷歌这边,不仅是技术呈现出步步慢的状态;甚至在舆论上,还出现了被 OpenAI 用一个人事变动(Ilya 离职)消息盖过谷歌年度最大活动(I / O 大会)热度的情况。

那么谷歌在大模型时代为什么不行了?

对此,前谷歌 CEO Eric Schmidt(2001 年至 2011 年任职)在斯坦福最新的演讲中表达了他的观点:

谷歌非常重视工作与生活的平衡,例如允许员工居家办公。

但创业公司,他们工作真的很拼。

甚至还有网友爆料称:

我兄弟是谷歌顶级 AI 程序员,他有 3 个全职工作,每天只在谷歌这边花 2 个小时。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

那么你对此怎么看,欢迎在评论区留言讨论。

参考链接:

[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[2]https://x.com/GoogleDeepMind/status/1823409674739437915

[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event

[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones

本文来自微信公众号:微信公众号(ID:QbitAI),作者:关注前沿科技

相关资讯

谷歌确认 Gemini Nano 本地大模型不会上线 Pixel 8 手机

谷歌官方表示,由于硬件限制,AI 语言大模型 Gemini Nano 不会上线谷歌 Pixel 8 手机,但未来会出现在其他高端设备上。IT之家获悉,Gemini 的前身是谷歌在 2023 年 2 月发布的聊天机器人 Bard,后者在 2024 年 2 月 8 日更名为 Gemini。谷歌计划将 Gemini 整合进旗下所有产品,并加入 Google One 订阅中。Gemini Nano 作为谷歌为移动设备推出的 Gemini 大模型版本,能够处理不需要连接外部服务器的本地任务,仅支持谷歌 Pixel 8 Pro

谷歌:手机运行人工智能模型将占用大量内存

谷歌在 3 月初发布了一个奇怪的声明,称旗下两款新手机 Pixel 8 和 Pixel 8 Pro 中,只有 Pixel 8 Pro 能够运行其最新的人工智能模型“Google Gemini”。尽管两款手机的配置非常相似,但谷歌却以神秘的“硬件限制”为由拒绝在 Pixel 8 上运行该模型。这番言论让人费解,因为谷歌一直宣称 Pixel 8 是以人工智能为核心的手机,并且还专门针对智能手机设计了“Gemini Nano”模型,然而这两者居然无法兼容运行。几周后,谷歌似乎开始松口,宣布即将在 6 月的季度更新中为 P

谷歌发布 Gemini Live:支持 AI 语音聊天,可模拟面试场景、推荐演讲技巧

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了 Gemini Live 服务,将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。 推动自然、流畅的对话交流谷歌表示 Gemini Live 提供了一种移动对话体验,让用户和 Gemini 展开自由流畅的对话。Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式(限量 Alpha 测试),采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。谷歌表示用