原文引自 Maximillian Piras 的文章《When Words Cannot Describe: Designing For AI Beyond Conversational Interfaces》。该译文并非完整原文,内容已做删减和调整。
人工智能的不断发展给设计师打造更直观的用户界面创造了机会。基于文本的大型语言模型解锁了许多新的可能性,因此许多人认为从图形界面转向诸如聊天机器人之类的对话界面是一种必然。然而,有大量证据表明,对许多交互模式来说,对话界面并不理想。Maximillian Piras 探讨了最新的人工智能能力如何在不局限于”对话”的情况下重塑人机交互的未来。
很少有技术创新能彻底改变我们与计算机的交互方式。幸运的是,我们已经获得了亲眼目睹下一次范式(paradigm)转变的机会。
这些转变往往会开启一个新的抽象层(abstraction layer),以隐藏子系统的运作细节。细节的泛化使我们的复杂系统看起来更简单、更直观。这不仅简化了计算机程序的编码,也简化了交互界面的设计。例如,命令行界面创建了一个抽象层,使得人们通过存储的程序进行交互成为可能。这隐藏了早期计算机中暴露的子系统细节,那些计算机只能通过开关输入 1 和 0 来编程。
图形用户界面(GUI)进一步抽象了这一概念,使我们能够通过视觉隐喻来操控计算机。这些抽象化使得计算机对非技术专业用户来说也变得易于上手。
尽管取得了这些进步,我们仍然没有找到完全直观的界面 —— 网络上大量相关文章证明了这一点。然而,人工智能的最新进展已经使许多技术专家确信,计算机的下一个进化周期已经到来。
界面抽象的层次,从底层到顶层依次为:命令行界面、图形用户界面和由人工智能驱动的对话界面。
一、下一个界面抽象层
机器学习分支,生成式人工智能(generative AI)推动了最近大部分创新。它利用对数据集(datasets)的模式识别(pattern recognition)来建立概率分布(probabilistic distributions),从而实现文本、媒体和代码的新建构。比尔·盖茨认为这是“自图形用户界面以来技术上最重要的进步”,因为它可以使控制计算机变得更加容易。对于解释非结构化数据(如自然语言),解锁了新的输入和输出方式,从而使不同以往的形式变得可行。
现在,我们的信息宇宙可以通过一个与人面对面交谈一样直观的界面立即调用。这就是我们在科幻小说中梦想中的计算机,类似于《星际迷航》中的数据系统。也许到目前为止的计算机只是原型,而我们现在正准备进行实际产品的推出。想象一下,如果构建互联网就像铺设轨道,那么人工智能可能就是以极快的速度运输所有信息的火车,我们将看到当它们冲进城镇时会发生什么。
“很快,人工智能出现之前的时代将变得遥远,就像使用计算机意味着在 C:> 提示符下打字而不是点击屏幕的日子一样。
— 比尔·盖茨,《人工智能时代已经开始》
如果一切即将发生变化,软件设计师的心智模型也必须跟着改变。正如 Luke Wroblewski 曾经推广移动优先设计一样,下一个时代的主导思潮很可能是 AI 优先。只有通过理解 AI 的限制和能力,我们才能打造出令人愉悦的设计。它对界面演变的讨论已经开始产生影响。
例如,大型语言模型(LLMs)是一种在许多新应用中使用的人工智能类型,它们以文本为基础的特性使许多人相信对话界面,如聊天机器人,是未来合适的形式。多年来,AI 是一种可以交流的概念一直在行业中蔓延。UX 杂志的合作所有者 Robb Wilson 在他的书《无形机器时代》(2022)中将对话称为“无限可扩展的界面”。Figma 的产品设计副总裁 Noah Levin 认为,“学会如何与某物交谈是一件非常直观的事情。”甚至是 GUI 的先驱比尔·盖茨也提出,“我们控制计算机的主要方式将不再是 pointing and clicking。”
微软 Copilot 是一个新的对话式人工智能功能,正在整合到他们的办公套件中。
希望对话式计算机能够拉平学习曲线。Rabbit 的创始人 Jesse Lyu 断言,自然语言方法将是“如此直观,以至于你甚至不需要学习如何使用它”。
毕竟,《星际迷航》中的数据(Data)并没有附带说明手册或入门教程。从这个角度来看,对话界面取代 GUI 的演化故事似乎是合乎逻辑的,与早期远离命令行的转变相呼应。但也有一些人持相反的意见,一些人甚至像 Maggie Appleton 一样称聊天机器人等对话界面为“懒人解决方案”。
乍看之下,这似乎是一种分裂,但其实更多是界面演化的框架简化。命令行远未灭绝;技术用户仍然更喜欢它们,因为它们更灵活、更高效。对于软件开发或自动化脚本等用例来说,图形化无代码工具中的额外抽象层可能会成为一种障碍,而不是一座桥梁。
图形用户界面(GUIs)是革命性的,但并非万能解决方案。然而,有大量研究表明,对话界面也不会成为万能解决方案。对于某些交互,相对于图形用户界面(GUIs),它们可能会降低可用性,增加成本,并引入安全风险。
那么,人工智能应用的正确界面是什么?本文旨在通过对比对话作为界面的能力和限制来提供设计决策的信息。
二、连接像素
我们将从一些历史背景开始,因为了解未来的关键往往从回顾过去开始。对话界面看起来很新,但我们几十年来一直能够与计算机进行对话。
Joseph Weizenbaum 在 1966 年的麻省理工学院实验中发明了第一个聊天机器人 ELIZA。这为接下来的语言模型世代奠定了基础,衍生出了从像 Alexa 这样的语音助手到那些让人烦恼的电话树菜单。然而,除了设置计时器等基本任务外,大多数聊天机器人很少投入使用。
似乎大多数消费者毕竟并不那么喜欢与计算机交谈。但去年发生了一些变化。我们从 CNET 报道“72% 的人认为聊天机器人是浪费时间”,到 ChatGPT 获得了 1 亿周活跃用户。
与首个聊天机器人 ELIZA 的对话,该机器人于 1966 年发明。
是什么让聊天机器人从“沉闷”变得“惊人”?大多数人将其归功于 OpenAI 在 2018 年发明的预训练生成变换器 (GPT) 。这些是一种新型的大型语言模型,具有显著的自然语言理解能力。然而,GPT 的核心是 2017 年推出的转换器架构这一更早的创新。这种架构使得捕捉自然语言输入文本周围的长期上下文所需的并行处理成为可能。更深入地说,这种架构之所以能实现,要归功于 2014 年引入的注意力机制。这使得对输入的不同部分进行选择性权衡成为可能。
通过这一系列相辅相成的创新,对话式界面现在似乎能够在更广泛的任务上与图形用户界面竞争。将图形用户界面作为命令行的一种可行替代方案,也是通过惊人相似的途径才得以实现的。当然,这需要鼠标等硬件来捕捉键盘以外的用户信号,还需要分辨率足够高的屏幕。然而,研究人员在多年后发现了缺失的软件要素,这就是位图的发明。
1963 年,Ivan Sutherland 使用 Sketchpad 的图形用户界面。
位图允许处理复杂的像素模式,而早期的矢量显示则难以处理。例如,Ivan Sutherland 的 Sketchpad 是首个图形用户界面(GUI),但无法支持诸如重叠窗口之类的概念。IEEE Spectrum 的《Of Mice and Menus》(1989)详细描述了由 Alan Kay 在 Xerox Parc 的团队发明位图的进展。这项新技术使得革命性的 WIMP(窗口、图标、菜单和指针)范式成为可能,通过直观的视觉隐喻帮助整整一代人熟悉个人电脑。
计算不再需要在开始时预先设定一组步骤。回顾历史可能会觉得微不足道,但在 1963 年 Sketchpad 的麻省理工学院演示中,演示者们已经在暗示一个人工智能系统。这是一个转折点,将一个复杂的计算机转变为一个探索性的工具。设计师现在可以为需要探索的体验打造界面,这远远超越了命令行所提供的灵活性和效率的需求。
Susan Kare 早期绘制的苹果图形用户界面指针图标草图
三、并行范式
对现有技术的新颖调整使得每种新的界面都适用于主流使用。在这两种情况下,基础系统都已经可用,但是不同的数据处理决策使输出变得有意义,足以吸引技术专家以外的主流用户。
通过位图,图形用户界面可以将像素组织成网格序列,以创建复杂的拟态结构。通过 GPT,对话界面可以组织非结构化数据集,以创建具有类似人类(或更高)智能的响应。
这两种范式的原型界面都是在 20 世纪 60 年代发明的,随后在其发展时间上出现了巨大的差异——这本身就是一个案例研究。现在我们发现自己又处于另一个转折点:除了计算机和探索性工具之外,计算机还可以扮演栩栩如生的生命实体。
Geoff McFetridge 为电影《她》中展示的对话界面的早期草图
但我们的哪些需求需要对话界面而不是图形界面呢?在电影《她》中,我们看到了对我们对陪伴的需求的理论解决方案,主人公爱上了他的数字助手。但对于我们这些满足于有机关系的人来说,有什么好处呢?我们可以期待验证对话是更直观界面的假设。这似乎是合理的,因为 WIMP 范式的一些核心组件存在着广为人知的可用性问题。
Nielsen Norman Group 报告称,文化差异使得图标的普遍认知变得罕见——随着时间的推移,菜单趋向于变得混乱不堪,不可用性不断增加。对话界面似乎更易用,因为你可以在困惑时直接告诉系统!但正如我们将在接下来的部分中看到的,它们也有很多可用性问题。
用输入框代替菜单,我们不禁要问,这是否是在用一个可用性问题代替另一个可用性问题?
四、对话的成本
为什么在科幻电影中对话界面如此受欢迎?在一篇《根茎》(Rhizome)的文章中,Martine Syms 理论认为,它们使得“互动更具电影性,制作更简洁。”这种成本/效益也同样适用于应用程序开发。通过书面或口头交流提供的文本完成是大型语言模型(LLM)的核心功能。从设计和工程的角度来看,这使得对话成为最简单的这种功能的包装。
杰出的 AI 研究工程师 Linus Lee 将其描述为“暴露算法的原始界面”。由于交互模式和组件已经在很大程度上定义好,因此没有太多需要发明的 —— 一切都可以放入一个聊天窗口。
“如果你是一名工程师或设计师,负责将这些模型的力量转化为软件界面,最简单、最自然的方式将这种能力“包装”到 UI 中就是对话界面。” — Linus Lee ,《构想更好的语言模型界面》
这一观点得到了《大西洋月刊》对 ChatGPT 发布的报道的进一步验证,报道将其描述为“低调的研究预览”。OpenAI 不愿将其定位为产品,表明对用户体验缺乏信心。内部预期如此之低,以至于员工对首周采用情况的最高猜测仅为 10 万用户(比实际数字少 90%)。
对话界面建设成本低廉,因此它们是一个合乎逻辑的起点,但一分钱一分货。如果界面不适用,那么后续的用户体验债务可能会超过任何前期节省下来的成本。
一个可视化的图示,展示了将 LLM 的原始输出包装成对话界面有多容易。
五、被遗忘的可用性原则
史蒂夫·乔布斯曾说过:“人们不知道自己想要什么,直到你向他们展示。”将这种思维应用于界面设计,与一种称为“可发现性”的可用性评估相呼应。Nielsen Norman 集团将其定义为用户“遇到了他们之前不知道的新内容或功能”的能力。
设计良好的界面应能帮助用户发现现有的功能。如今,许多流行的生成式人工智能应用程序的界面都围绕着一个输入框,用户可以在其中输入任何内容来提示系统。问题是,用户往往不清楚应该输入什么内容才能获得理想的输出结果。具有讽刺意味的是,解决写作障碍的理论方案本身可能就存在空白页问题。
“我认为人工智能在这些缺失的用户界面方面存在问题,大多数情况下,它们只是给你一个空白框让你输入,然后就看你能不能想出它能做什么了” — Casey Newton, Hard Fork 博客
对话界面擅长模拟人与人之间的互动,但在其他方面可能表现不佳。例如,一个名为 Midjourney 的流行图像生成器起初只支持文本输入,但现在正在向图形用户界面转变,以实现“更易于使用”。
这提醒我们,在涉足这个新领域时,我们不能忘记 Don Norman 在其里程碑式著作《日常物品的设计》(1988 年)中提出的经典的以人为中心的原则。图形界面似乎更符合他的建议,即提供明确的功能和指示符以增加可发现性。
此外,Jakob Nielsen 还列出了 10 个可用性启发式;如今的许多对话界面似乎都忽略了其中的每一个。第一个可用性启发式解释了系统状态的可见性如何让用户了解其行为的后果。它使用了地图上的 "您在这里 "图钉来解释正确的定位是如何为我们的下一步行动提供信息的。
导航与聊天机器人等对话式界面的关系比想象的要密切,尽管所有的交互都是在同一个聊天窗口中进行的。ChatGPT 等产品的后台会在神经网络中进行导航,通过将注意力集中在训练数据集的不同部分来完成每个反馈。
这是一个可视化示例,演示了在提示工程中进行角色扮演是如何宽松地指导人工智能模型制作不同的输出结果。
大型语言模型(LLM)是如此的不透明,以至于连 OpenAI 都承认它们“不理解它们是如何工作的”。然而,定制输入是有可能的,这种方式可以松散地引导模型从其知识的不同领域做出反应。
一个常用的引导注意力的技术是角色扮演。您可以要求一个 LLM 扮演一个角色,比如输入“想象你是一名历史学家”,以有效地切换其模式。Prompt 工程研究所解释说,当“在大量不同领域的文本数据中进行训练时,模型形成了对各种角色及其相关语言的复杂理解。” 扮演角色会唤起 AI 训练数据中的相关方面,如语气、技能和理性。
例如,历史学家角色会以事实细节回应,而讲故事者角色则以叙述性描述回应。角色还可以通过工具提高任务效率,例如将数据科学家角色分配给生成 Python 代码的响应。
角色也强化了社会规范,正如 Jason Yuan 所言,“您的银行 AI 代理可能不应该能够与您进行深入的哲学交谈。”然而,对话界面会将这类系统状态隐藏在其消息历史中,迫使我们将其保留在工作记忆中。
AI 聊天机器人使用分段控制器( segmented controller),让用户在一次点击中指定一个角色。每个按钮都会自动调整 LLM 的系统提示。
缺乏像角色扮演这样的持续性上下文标志会导致可用性问题。为了清晰起见,我们必须不断询问人工智能的状态,就像在终端输入 ls 和 cd 命令一样。专家可以做到这一点,但新手可能会承受额外的认知负担。问题不仅在于人类的记忆,系统也存在类似的认知超载问题。由于上下文窗口中的数据限制,用户最终必须恢复任何低于系统级别的角色扮演。如果这类信息能在界面中持续存在,用户就会一目了然,并能在每次提示时自动向人工智能重申。
http://character.ai 通过将历史人物作为熟悉的焦点来实现这一点。文化线索会引导我们向 "阿尔-帕西诺 "和 "苏格拉底 "提出不同类型的问题。人物 "成为一种启发式方法,可以设定用户期望并自动调整系统设置。这就像在餐厅张贴菜单一样,来访者不再需要询问有什么吃的,而是直接点餐即可。
“人类的短期记忆有限。促进识别的界面减少了用户所需的认知成本。” — 雅各布·尼尔森(Jakob Nielsen),《用户界面设计的 10 个可用性启发式》
另一个被遗忘的可用性教训是,有些任务比解释更容易完成,尤其是通过图形用户界面中流行的直接操作方式。
Photoshop 的新生成 AI 功能通过与其图形界面集成来强化这一概念。虽然生成填充包括一个输入字段,但它也依赖于类似于其经典套索工具的拟态控件。描述要操作图像的哪一部分要困难得多。
当文字交流效率低下时,交互界面应当保留。对于调整大小来说,滑块似乎更合适,因为说“变大”留下了太多的主观性。像颜色和纵横比这样的设置比描述更容易选择。标准化的控件还可以让系统更好地在幕后组织提示。例如,如果一个模型接受某个参数的特定值,那么界面就可以为如何输入该参数提供一个自然的映射。
示意图展示了图形控件如何帮助系统在界面后组织提示(prompt)
大多数可用性原则大多已有三十多年的历史,这可能会让一些人怀疑它们是否仍然适用。Jakob Nielsen 最近就这些原则发表了自己的看法,他认为:"如果一件事情在 26 年里都是正确的,那么它很可能也会适用于未来几代的用户界面。然而,遵守这些可用性原则并不需要遵循经典的组件。像 Krea 这样的应用程序已经在探索新的图形用户界面,以操作生成式人工智能。
六、Prompt 工程确实是一项工程
今天的对话界面最大的可用性问题是它们将技术工作转嫁给了非技术用户。除了可发现性差之外,它们与命令行的另一个相似之处在于,理想的输出只能通过学习命令来实现。我们将将输入调整以与生成式人工智能系统进行最佳沟通的做法称为“提示工程”。这个名字本身就表明这是一项专家级的工作,而且精通这项工作可以获得 20 万美元的薪水。
用自然语言进行编程是一项令人着迷的进步,但似乎在消费者应用中要求这样做有些不合时宜。仅仅因为现在任何人都可以说出与计算机相同的语言,并不意味着他们知道应该说什么或最佳的说法方式 — 我们需要引导他们。尽管所有新技术都有学习曲线,但这个学习曲线似乎太陡峭,会阻碍进一步的应用和长期的发展。
Canva 将其人工智能功能称为 "Magic Studio"
作为高质量产出的先决条件,prompt 工程似乎已被赋予了黑暗艺术的神秘色彩。许多人工智能功能的营销材料通过 "魔法 "等术语强化了这一点。如果我们假设有一个正反馈循环在起作用,那么这种不透明性一定会激发消费者的好奇心。
但是,将产品定位在魔法书和巫师的领域,也暗示着一种难以解读的体验--这是否是一个好的长期战略呢?如果我们假定 Steve Krug 在《别让我思考》一书中提出的具有影响力的教训仍然适用,那么大多数人就不会费心去研究适当的提示,而是得过且过。
但在生成式人工智能中,"试错 "的问题在于根本不存在任何错误状态,你总会得到回应。例如,如果你让 LLM 做数学运算,它会给你提供自信的答案,但这些答案可能是完全错误的。因此,当我们不知道一个回应是否是幻觉时,从错误中学习就变得更加困难。正如 OpenAI 的 Andrej Karpathy 所说,幻觉并不一定是错误,因为 LLM 是 "造梦机器",所以这完全取决于界面如何设定用户期望。
"但与人一样,要从人工智能中找到最有意义的答案,就必须提出正确的问题。人工智能既不会通灵,也不会心灵感应"。— Stephen J. Bigelow ,《成为 prompt 工程师所需的 5 项技能》
使用神奇的语言有可能让新手误以为人工智能无所不知。人工智能的知识仅限于训练数据,这一点可能并不明显。
① 当达到这个数据集的极限时,用户是否知道用 "检索增强生成"(Retrieval Augmented Generation)来补充?
② 用户是否知道要探索不同的提示技术,如 "少射"(Few-Shot)或 "思维链"(Chain of Thought),以调整人工智能的推理能力?
一旦魔法尘褪去,软件设计师就会意识到,这些决定就是用户体验!
为完成任务选择正确的提示技术、知识来源和模型选择,才能让用户感到愉悦。我们应该探索如何从用户手中卸下这些工作。
③ 空状态可以解释人工智能知识的局限性,并允许用户根据需要填补空白。
④ 入门流程可以学习用户目标,推荐经过正确推理调整的相关模型。
⑤ 类似于模糊搜索的方法可以对用户的输入进行标记,以指导他们进行有用的调整。
通过 OpenAI 的图像生成器,我们已经开始看到这方面的蛛丝马迹,它可以在幕后重写用户输入,以优化图像输出。
图片展示了如何将图形用户界面与自主输入结合,利用检索增强生成(RAG)等技术来自动化提示(prompt)。
七、博基尼送披萨外卖
除了可用性问题的认知成本外,还有考虑到经济成本。与在图形用户界面内点击按钮相比,与对话界面的每次交互都需要通过人工智能来推理响应。这需要比在 GUI 内进行操作更多的计算资源。在当前的计算成本下,这种开销可能是禁止性的。在某些任务中,增加智能可能带来的价值可能不值得这个代价。
例如,《华尔街日报》认为,使用 LLM 来完成电子邮件摘要等任务,"就像让兰博基尼来送披萨一样"。成本较高的部分原因是人工智能系统无法像标准软件那样利用规模经济。每次交互都需要大量计算,因此成本与使用量成正比增长。如果再生产的边际成本为零,那么常见的软件订阅模式就变得不那么站得住脚了。
消费者是否愿意为对话界面支付更高的价格,还是更青睐以高性价比的图形用户界面包装的人工智能功能?具有讽刺意味的是,这种困境让人想起了早期 GUI 面临的挑战。仅当 RAM 芯片价格几年后下降时,才能提供所需的处理器逻辑和内存速度来支持底层位图。我们希望历史能重演。
施乐 Alto 光栅显示器的早期草图,在 RAM 芯片价格下降之前,这种显示器的成本难以承受。(图片来源:Brett Victor)
另一个需要考虑的成本是安全风险:如果你的兰博基尼在送披萨时被偷了怎么办?如果让人们向人工智能提出任何问题,其中一些问题将具有操纵性。提示注入就是试图通过自然语言渗透系统。正确的单词序列可以将输入字段转化为攻击载体,让恶意行为者访问私人信息和集成。
因此,在将人工智能定位为团队成员时一定要谨慎,因为员工已经被视为网络安全防御中最薄弱的环节。错误的业务逻辑可能会意外优化企业遭受的网络钓鱼邮件数量。
好的设计可以通过确定人工智能对用户最有意义的地方来降低这些成本。在这些时刻强调类似人类对话的互动,但在其他地方使用更具成本效益的元素。通过对敏感数据进行分区,使其只有安全系统才能访问,从而防止及时注入。
八、世代预测
在我之前的 Smashing 文章中,我解释了算法友好界面的概念。它们将每次交互视为通过双向反馈改进理解的机会。它们向用户提供系统反馈,同时向系统报告性能反馈。它们的成功取决于最大化数据收集接触点,以优化预测。预测输出的准确性增益往往会导致更好的用户保留率。因此,良好的数据通过网络效应增强自身而成倍增值。
尽管我之前的重点是内容推荐算法,但我们能否将其应用于生成式 AI?尽管输出非常不同,但它们都是预测模型。我们可以使用特定数据定制这些预测,比如个人用户的特征、偏好和行为。
因此,就像 Spotify 通过了解你的音乐品味来推荐新歌一样,理论上我们也可以个性化生成人工智能。Midjourney 可以根据过去的使用情况或偏好推荐图像生成参数。ChatGPT 可以在正确的时间调用正确的角色(希望系统状态是可见的)。
一个算法友好界面中的反馈循环。
这一领域仍处于未知阶段,因此目前还不清楚对话式界面对算法的友好程度。影响其可用性的可发现性问题也可能影响其分析参与信号的能力。如果无法将信号与噪音区分开来,就会削弱个性化的努力。考虑一下像点击 "喜欢 "按钮这样的简单交互;它会向后台发送一个非常干净的信号。
与此相对应的会话是什么呢?输入 "喜欢 "一词似乎并不是一个可靠的信号,因为它可能是在一个比喻或无意识的感情色彩中被提及的。
也许一种解决方案是使用另一种 LLM 作为推理引擎,将非结构化输入自动格式化为清晰的参与信号。但在数据收集效率明确之前,设计者应该问一问,对话式界面的好处是否大于个性化程度降低的风险。
九、迈向下一个抽象层
随着计算领域新范式的转变,我希望这篇文章能成为思考下一层界面抽象的入门指南。对话界面必将成为下一个人工智能优先设计时代的主流。增加语音功能将使计算机能够增强我们的能力,而不是只让我们在不健康的屏幕时间里弓起脊柱。然而,仅有对话是不够的,我们还必须设计出语言无法描述的需求。
因此,如果说任何界面都不是万能的,那么让我们避免简单化的进化论,而要追求卓越体验的原则。我们想要的界面是综合的、情景化的和多模态的。它知道有时我们只能用手势或图表来描述我们的意图。当我们忙得没时间交谈,但又需要快速提问时,它也会尊重我们的需求。当我们确实想聊天时,它可以看到我们所看到的,这样我们就不必再写冗长的描述。当文字无法表达我们的意思时,它仍然能理解我们的要点。
十、避免对未来的局限性想象
这一刻让我想起了移动优先设计时代的一个警世故事。在 iPhone 上市几年后,触摸屏成为未来集体愿景的流行主题。但是,苹果公司受人尊敬的人机界面发明家 Bret Victor 将触摸屏视为对未来的狭隘看法。
在他对外设可能性的简短评论中,他指出这些外设是如何讽刺性地完全忽略了触摸。大多数交互主要利用的是我们的视觉,而不是我们双手所拥有的丰富触觉反馈能力。我们如何才能确保人工智能优先的设计能够放大我们的所有能力?
“工具通过增强人类的能力来满足人类的需求。” — Bret Victor,《交互设计的未来简论》
老实说,此刻的不确定性让我无法预测新的设计原则。我所能做的,就是向 Charlie Munger 学习,把事情倒过来思考。
我们通常通过追求卓越来推进设计,但有时我们需要通过反转问题来避免愚蠢。
十一、逆向设计
如果我们尝试设计下一个抽象层,我们似乎最终会得到一个类似聊天机器人的东西。我们现在知道为什么这本身就是一个不完整的解决方案。如果我们向后看问题,找出我们想要避免的不良结果,会怎么样?毕竟,避免愚蠢比追求卓越要更容易。
要避免的一个明显错误就是强迫用户参与对话,而不考虑时间限制。当聊天的时机成熟时,聊天的方式不应该以同样令人沮丧的新问题取代现有的可用性问题。对于与送披萨同等重要的基本任务,我们应该找到实用的解决方案,而不是像驾驶兰博基尼那样奢侈。此外,我们不应该把 prompt 的工程专业知识作为对非专业用户的要求。最后一点,随着系统变得越来越像人类,我们也不应该轻信它,以免我们的努力在无意中却使它更容易地获取到我们的私人数据。
一个更智能的界面不会犯这些愚蠢的错误。