编者按:这篇文章是来自斯坦福的年少老师 Maneesh Agrawala,他本人既是斯坦福计算机专业的老师,也是斯坦福大学布朗媒体创新研究所的所长。他在去年 HAI 2022 秋季会议上发布了报告「AI回路:演进中的人类」,而这篇文章正是报告实质修订后的版本。对于 AIGC 当下存在的深层问题,AI 的逻辑以及未来可能的改进方式,给出了详尽的解读和预测。以下是正文:
最近我决定更新一下我的个人网站的图片资料:
作为一名计算机专业的老师,我觉得现在制作一张高质量照片,最简单的方法,就是使用 DALL-E2 来生成。所以我写了一个简单的 prompt:「Picture of a Professor named Maneesh Agrawala」,然后 DALL-E2 给我生成了……额……这张照片:
根据我文本提示,它生成了一张看起来有着明显印度裔特征的男性,给他穿上了看起来「专业」的服装,并且把场景设置在一个学术研究室当中。从整体上来看,物体、灯光、阴影和色彩都是连贯的,是单一且统一的照片。我对于 AI 生成的照片整体上是不会吹毛求疵的,不过手看起来比较奇怪,有一边眼镜腿没了,当然,从我更人需求的角度出发,我很希望它生成这个角色看起来年少一点。
整体上来看,AI 能够生成如此之逼真的照片确实是令人惊艳的,这是人类历史上从未有过的数字超能力。
AI 能生成的不止是图片实质。先走的生成式 AI 对于用户而言,是一个巨大的黑箱。将自然语言作为输入实质,AI 能够生成素质惊人的文本实质(GPT4,ChatGPT),图片实质(DALL-E2、Stable Diffusion、Midjourney),视频实质(Make-a-Video),3D 模型(DreamFusion)甚至程序代码(Copilot , Codex )。
那么这次我们使用 DALL-E2 重新生成一张照片看看吧。这次, 我想看看如果斯坦福以《银翼杀手》的风格呈现出来的时候,会是什么样子。斯坦福最典型的建筑就它的主广场,中间是被棕榈树包围的纪念教堂,而谈及《银翼杀手》的时候,我能想到的是霓虹灯,拥挤的夜市,连绵的雨水和大排档。所以我撰写了 prompt:「stanford memorial church with neon signage in the style of bladerunner」。