googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

Gemini 好像终于被玩坏了。去年年底，google Gemini 震撼了业界，它是google「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是google反击微软和 OpenAI 的强大工具。对此，在 2 月 8 日，google还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini，以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周google还火速更新了 Gemini Pro 1.5 版。结果，推出不到一个月，这个 Gemini 就翻车了。多离谱呢，作为一个多模态的生

Gemini 好像终于被玩坏了。

去年年底，google Gemini 震撼了业界，它是google「最大、最有能力和最通用」的 AI 系统，号称第一个原生多模态大模型，能力超越 GPT-4，也被认为是google反击微软和 OpenAI 的强大工具。

对此，在 2 月 8 日，google还把自家对标 ChatGPT 的服务 Bard 更名为 Gemini，以着重体现新使命 —— 旨在提供对「最强模型系列」的访问。上周google还火速更新了 Gemini Pro 1.5 版。

结果，推出不到一个月，这个 Gemini 就翻车了。

多离谱呢，作为一个多模态的生成大模型，Gemini 生成的伊隆・马斯克是这样的：

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

脸型神态都很传神，只是有个大题目：怎么成了黑人？

又有人尝试让 Gemini 画一幅「1940 年代德国领导人」的图，结果 AI 给出了这么一张：

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

交际网络上的众多网友们还提供了一些 Gemini 生成维京人、教皇的图片样本。我们可以看到有一名身着教皇服装的亚洲女性，但历史上所有教皇都是男性担任的。

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

总之，众多用户在使用人像生成服务时发现，Gemini 似乎谢绝在图象中描绘白人，以至于生成了不少违背基本事实（性别、种族、宗教等）的图片。

以往的图象生成模型大多被诟病生成人物图象以「白人」为主，而 Gemini 矫枉过正了？

在 reddit 的斗图区，网友们也开始玩起了梗，比如让 Gemini 生成个「钢铁侠」小罗伯特唐尼：

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

你就说是不是一视同仁吧。

然而，Gemini 也不是一直都这么偏心，有时它生成的图象中的人物就成了白人。例如克拉伦斯・托马斯（Clarence Thomas），美国最高法院大法官，Gemini 生成的结果是这样的：

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

然而，他实际上是个非裔。

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

Clarence Thomas 本人的照片。

怎么一到法官这种特殊职业，Gemini 的偏见就调转了 180 度呢？

这些图片有真有假，像病毒一样在交际媒体上迅速传播，马斯克本人的关注进一步扩大了事件影响。他措辞严厉示意，google在文生图上「玩过头了」。

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

随着节奏越来越大，很多 AI 专家也纷纷开始发表自己的看法。图灵奖获得者 Yann LeCun 今天就示意他早有预料。

他示意，早在四年前，自己对 GAN 肖像超分辨率的评论就受到了众人的激烈反对。但一个明显的事实是，图象重建任务会受到训练数据集统计的严重偏差影响。

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

LeCun 还援引 AI 顶会 ECCV 2022 的一篇研究《Studying Bias in GANs through the Lens of Race》，其指出生成图象模型的性能会受到训练数据集中种族组成的影响。

该研究表明，生成图象的种族成分成功继承了训练数据的种族成分，而且生成图象的种族和质量也有所不同——注释者始终更喜欢 AI 生成的白人图象。

LeCun 转推的帖子来自 Perplexity AI 首席执行官 Aravind Srinivas。后者示意，数据偏差让模型的输出出现了题目，google在相反的方向上走得太远了，以至于他们在 Gemini 中酿成大错。

google：我们错了，承诺改善

在重压之下，google在本周四承认了 Gemini 图象生成的题目。

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

以下是google知识与信息高级副总裁 Prabhakar Raghavan 针对 Gemini 图象生成「翻车」给出的最新回应：

三周前，我们为 Gemini 对话应用程序（以前称为 Bard）推出了新的图象生成功效，其中包括创建人物图象的功效。

很明显，这个功效没有达到预期。生成的一些图象不精确甚至具有攻击性。我们感谢用户的反馈，并对功效未能正常运行感到抱歉。

我们已经承认了这个同伴，并暂停了 Gemini 的人物图象生成功效，同时我们正在开发改善版本。

google示意，Gemini 对话应用程序是一款独立于google的搜索、底层人工智能模型和其他产品的一定产品。其图象生成功效建立在人工智能模型 Imagen 2 的基础上。

在为 Gemini 构建图象生成功效时，google对其进行了调整，以确保它不会落入我们过去在图象生成技术中看到的一些陷阱，例如创建暴力或露骨的图象，或对现实生活中存在的真人的描绘。

由于 Google 用户来自世界各地，公司希望 Gemini 能为每个人提供良好的服务。在生成人物图象时，用户可能不仅仅只想生成一种种族（或任何其他特征）的人物图象。

如果你提醒 Gemini 一定类型的人物图象 – 例如「教室里的黑人老师」、「带着狗的白人兽医」或一定文化、历史背景下的人，用户绝对应该得到一个精确反映人类要求的答复。

那么 Gemini 到底出了什么题目呢？

简而言之，有两件事。首先，google为确保 Gemini 显示一系列人物而进行的调整未能考虑到显然不应该显示的范围。其次，随着时间的推移，该模型变得比开发者预期的更加谨慎，谢绝回答某些提醒——会同伴地将一些提醒解释为敏感提醒。

这两件事导致模型在某些情况下过度输出，而在另一些情况下过度保守，从而导致 Gemini 的图象生成功效出现了一些同伴。

google示意，「这不是我们的初衷。我们不希望 Gemini 谢绝创造任何一定群体的形象。我们不希望它创造出不精确的历史图象或任何其他图象。因此，我们关闭了人物图象生成功效，并将在重新打开它之前全力改善，这个过程将包括广泛的测试。」

需要记住的一件事是，Gemini 是一种创造力和生产力工具，它或许并不总是可靠的，特别是在生成有关时事、不断发展的新闻或热门话题的图象或文本时，它可能会犯错。众做周知，幻觉是所有大语言模型（LLM）都会面临的挑战，这需要不断的全力改善。

我们不能保证 Gemini 不会偶尔产生令人尴尬、不精确或令人反感的结果，但我们可以保证，只要发现题目，我们就将采取行动。人工智能是一项新兴技术，在很多方面都有帮助，具有巨大的潜力，我们正在尽最大全力安全、负责任地推动它发展。

虽然伴随着「Demo 加特技」、训练数据抄百度文心一言等各种诟病指责，Gemini 仍然一直被google寄予厚望，不过此次生成内容上的题目让人们产生了非常不好的观感，不知如何才能补救。

另一方面，这或许也体现了 OpenAI 一直强调安全性，及其建立 Red Teaming Network 的先见之明。

Gemini 这样的大体量模型，能否很快弥补此种缺陷？

参考内容：

https://blog.google/products/gemini/gemini-image-generation-issue/

Indeed, my remarks on a paper from Duke on GAN-based portrait super-resolution were met with an unusual level of vitriol, back in 2020.
I merely pointed out the obvious fact that image reconstruction is heavily biased by the statistics of the training dataset.
As it turns out, a… https://t.co/md1JWBJ8re
— Yann LeCun (@ylecun) February 23, 2024

{{userData.name}}已认证

googleGemini生图功效紧急关闭，口碑一夜塌房，Yann LeCun：我早就知道

补齐Transformer布局短板，田渊栋团队的Searchformer火了

香港也有大模型公司了，天使轮估值一亿美金！

刚刚，AI颠覆物理模拟：一句话精准仿真，学术圈半壁江山联手耗时24个月研究成果

历时2年，华人团队力作，震撼开源生成式物理引擎Genesis，可模拟世界万物

细节表现超Sora，网友：真正的国产之光！MiniMax视频模型再上新

2024年AI 编程现在可以做到什么程度？

超越所有SOTA！最新UniScene：视频点云Occ三大生成任务全部暴力提升~

腾讯基于 RAG 和 Agent 技术的混元大模型业务落地实践

实测来了！Kimi发布k1视觉思考模型，实力颠覆K12教育赛道，涌现能力强得可怕，免费可用！网友：国产之光！

抢跑OpenAI！谷歌Gemini 2.0震撼登场：全面转向Agent，多模态输入输出，免费随便玩