谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

翻车,大翻车。就在今天凌晨,谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o,可以说是吸足了科技圈的眼球。在官网发布的 demo 中,拍照问答功能的效果是这样的:它大致实现的功能,是用手机拍摄演唱会的海报,并让 Gemini 查看用户的日历,看看行程是否适合参加。以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。然而…… 当来到发布会现场演示环节的时候,画风却 180° 大变样。请看 VCR: 第一次:失败了。第二次:失败了。第三次:换手机,成功了。嗯…

翻车,大翻车。就在今天凌晨,谷歌版 Her——Gemini Live 正式发布。毕竟明显是对标 OpenAI 家的 GPT-4o,可以说是吸足了科技圈的眼球。在官网发布的 demo 中,拍照问答功能的效果是这样的:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

它大致实现的功能,是用手机拍摄演唱会的海报,并让 Gemini 查看用户的日历,看看行程是否适合参加。

以及还可以基于此进行一系列后续的操作,包括定时间查票价等等。

然而…… 当来到发布会现场演示环节的时候,画风却 180° 大变样。

请看 VCR:

第一次:失败了。

第二次:失败了。

第三次:换手机,成功了。

嗯…… 小哥表情,肉眼可见的有点慌。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

就连知名科技媒体 TechCrunch 都配上了这样的 emoji:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

甚至还有网友开启了辣评模式:

我 10 秒钟就能搜索我的日历。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

当然,这只是今天 Made by Google 的一个小插曲。

关于 Gemini Live 的更多内容,我们继续往下看。

谷歌版 Her 的全貌

正如我们刚才提到的,Gemini Live 和 GPT-4o 的功能十分相似。

除了“拍照问答”之外,它也可以做到实时对话,甚至在 Gemini 回复过程中进行打断。

据了解,目前 Gemini Live 的功能已经在安卓系统中向 Advanced 订阅者开放(仅限英语)。

未来几周,这个功能会陆续扩展到更多语言并且向 iOS 开放。

对话声音方面,Gemini Live 推出了 10 种新的声音供选择,效果是这样的:

操作方面,由于 Gemini 已经完全集成到了系统中,所以只需长按电源按钮或说“Hey Google”,就可以调用了。

例如在写邮件的过程中,让 Gemini 帮你生成配图,效果如下:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

不过对于这项功能,外媒们的评价却是褒贬不一。

例如 The Verge 的一位作者在亲测后给出的标题是 ——

Gemini Live 比 Google 快,但更尴尬。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

具体原因是作者在一次为期三天的公路旅行中,汽车的音频系统突然失效。

使用原先的谷歌助手寻找解决方案花费了至少五分钟,而 Gemini Live 仅耗时 15 秒。

但对话过程中的 Gemini Live 的持续发言和需要用户主动打断的交互方式,却让作者感到尴尬。

他认为:

声音和说话方式过于人性化,以至于在打断它时感到不自在。

与 Gemini Live 的互动中投入了更多情感,而不是将其作为解决问题的工具。

无独有偶,对于 Gemini Live 在云端运行这个点,华尔街日报也给出了犀利的评价 ——

对话上的进步,功能上的退步。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

具体到技术层面,GPT-4o 是一个端到端的系统,但从谷歌发布的内容来看,Gemini Live 则并非如此。

而是将 STT、VAD、LLM 和 TTS 系统做了集成:

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

除此之外,谷歌所发布的新 Pixel 系列手机中,也出现了 Gemini Live 的身影。

包括 Pixel 9 Pro Fold、Pixel 9、Pixel 9 Pro 和 Pixel 9 Pro XL。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

AI 功能方面,谷歌的 Pixel 手机在拍照上增加了一个叫“Add Me”的功能。

可以用增强现实(AR)和 AI 技术,可以把两张不同照片中的人物“塞”到一起。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

谷歌为什么追不上 OpenAI?

虽然谷歌这次发布 Gemini Live,算是对 OpenAI GPT-4o 的一种应战,但自从大模型时代拉开序幕以来,我们可以看到一个非常明显的一种趋势 ——

谷歌,跟不上 OpenAI 的脚步。

首先是在最为关键的 ChatGPT 发布的这个节点上,OpenAI 成为了开拓者,但谷歌随后发布的 Bard,和这次 Gemini Live 很相似,后续出现了翻车情况。

而后近一年半多的时间来,似乎所有重磅模型、重磅应用的发布,都是 OpenAI 在引领。

反观谷歌这边,不仅是技术呈现出步步慢的状态;甚至在舆论上,还出现了被 OpenAI 用一个人事变动(Ilya 离职)消息盖过谷歌年度最大活动(I / O 大会)热度的情况。

那么谷歌在大模型时代为什么不行了?

对此,前谷歌 CEO Eric Schmidt(2001 年至 2011 年任职)在斯坦福最新的演讲中表达了他的观点:

谷歌非常重视工作与生活的平衡,例如允许员工居家办公。

但创业公司,他们工作真的很拼。

甚至还有网友爆料称:

我兄弟是谷歌顶级 AI 程序员,他有 3 个全职工作,每天只在谷歌这边花 2 个小时。

谷歌版 Her 大翻车:试了 3 次且换手机才成功… 网友:我手动只需 10 秒

那么你对此怎么看,欢迎在评论区留言讨论。

参考链接:

[1]https://x.com/techcrunch/status/1823410187404743131?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[2]https://x.com/GoogleDeepMind/status/1823409674739437915

[3]https://blog.google/products/gemini/made-by-google-gemini-ai-updates/

[4]https://x.com/alexkehr/status/1823480786349383879?s=46&t=6eepxw1G6XRQ7VO0ANjJWg

[5]https://www.theverge.com/2024/8/13/24219736/gemini-live-hands-on-pixel-event

[6]https://blog.google/products/pixel/google-pixel-9-new-ai-features/#pixel9phones

本文来自微信公众号:微信公众号(ID:QbitAI),作者:关注前沿科技

相关资讯

谷歌发布 Gemini Live:支持 AI 语音聊天,可模拟面试场景、推荐演讲技巧

谷歌在今天召开的 Pixel 9 系列手机发布会上,发布了 Gemini Live 服务,将于今天开始率先面向使用英语的 Gemini Advanced 订阅用户开放。 推动自然、流畅的对话交流谷歌表示 Gemini Live 提供了一种移动对话体验,让用户和 Gemini 展开自由流畅的对话。Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式(限量 Alpha 测试),采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。谷歌表示用

安卓版谷歌 Gemini Live 免费上线,开启在线 AI 语音畅聊

科技媒体 9to5Google 昨日(9 月 12 日)发布博文,报道谷歌在 1 个月前面向 Advanced 订阅用户推出后,正逐步面向所有安卓用户免费开放 Gemini Live。AI在线曾于 8 月报道,谷歌在 Pixel 9 系列手机发布会上,发布了 Gemini Live,该服务提供了一种移动对话体验,让用户和 Gemini 展开自由流畅的对话。Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式(限量 Alpha 测试),采用了增强型语音引擎

安卓版谷歌 Gemini Live 上线,助力 AI 开启全民语音聊天时代

谷歌公司昨日(10 月 1 日)在 X 平台发布推文,宣布通过 Gemini 应用,现面向所有安卓用户开放 Gemini Live 功能。AI在线曾于 8 月报道,谷歌在 Pixel 9 系列手机发布会上,发布了 Gemini Live,该服务提供了一种移动对话体验,让用户和 Gemini 展开自由流畅的对话。Gemini Live 可以说是对标 OpenAI ChatGPT 最新上线的 Advanced Voice 模式,采用了增强型语音引擎,可以展开更连贯、更有情感表达力、更逼真的多轮对话。需要注意的是,目前仅