如何应对生成式人工智能给出的无穷无尽的正确答案

生成式人工智能 (GenAI) 似乎承诺带来前所未有的创新和自动化机会……然而,许多领导者难以清楚地表达 GenAI在组织层面提供的实际、有形价值。 那么,这种明显的 GenAI 价值差距背后是什么? 我们能做些什么来解决这个问题?

生成式人工智能 (GenAI) 似乎承诺带来前所未有的创新和自动化机会……然而,许多领导者难以清楚地表达 GenAI在组织层面提供的实际、有形价值。

如何应对生成式人工智能给出的无穷无尽的正确答案

那么,这种明显的 GenAI 价值差距背后是什么?我们能做些什么来解决这个问题?

我们先暂停关于 GenAI 的成功如何取决于基础模型、数据和定制的讨论,以考虑另一个或者可以说更重要的GenAI 业务成功的投入:领导力。

我确信 GenAI 的机遇是真实存在的,但需要一种特殊的领导思维才能挖掘这些机遇。

领导力作为技术考虑因素

“...在生成式 AI 旅程的每个阶段提出一个问题 ——‘这里的商业价值是什么’——可以帮助您的组织保持正轨。”

这种观点来自亚马逊网络服务 (AWS) 的汤姆·戈登 (Tom Godden),发表在《哈佛商业评论》的一篇关于企业领导者实施 GenAI 的技术考虑的文章中。

这是非常好的建议。但你可能因为这个建议听起来像是给高管的标准建议而忽视它:不要在做某事时不考虑它能为你的组织带来什么价值。

但是,与其他技术(包括您已经习惯的传统人工智能)相比,价值更重要的是——正如这篇 HBR 文章所建议的那样——*技术考虑*和领导力是对 GenAI 系统的技术投入。

当缺乏领导力作为技术投入时,GenAI 将在您的组织中一再失去其潜力。

与其他数据驱动技术相比,为什么这对 GenAI 来说是一个特殊的挑战?

新的思维方式:无穷无尽的“正确”答案

正当高管们逐渐意识到管理包括传统人工智能在内的生态系统意味着什么时,GenAI 要求我们进行另一次思维转变;在这个转变中,有无数正确答案。

  • 传统的人工智能用于自动执行只有一个正确答案的任务。
  • 生成式人工智能用于自动执行有无数正确答案的任务。

例如:

  • 传统人工智能:当我站在自动护照检查亭前时,如果面部识别系统错误地标记了我,它可能会产生一大堆错误答案中的任何一个,但只有一个正确答案。
  • 生成式人工智能:当我要求人工智能助手为我生成图像时,我得到了相当可靠的结果。当我重复同样的提示时,我得到了完全不同的图像。两者都是正确答案……但哪一个更正确呢?

如何应对生成式人工智能给出的无穷无尽的正确答案

以上哪幅图像是对提示“艺术画廊,橙色墙壁,黑色地板,有许多相同的蓝色花卉画的复制品”的“最佳”回应?它比其他的好多少?这完全取决于旁观者的眼光。

在无尽正确答案的世界中确定衡量标准

如果不更新思维模式,评估 GenAI 的投资回报率 (ROI) 就是一条统计死胡同。对于个人用户来说,GenAI 可能感觉有用就足够了,但对于您的组织来说这还不够……

为了证明你对技术的投资有影响,你必须能够衡量其绩效。为了确保该测量的统计有效性,你需要提前提出指标和定义。预测并评分 GenAI 无穷无尽的正确答案范围……这是采用它所面临的前所未有的领导力挑战。

当“最佳”取决于旁观者的眼光时,投资回报率 (ROI) 在规模上是一个棘手的概念。

这就是领导力如此重要的原因:“最佳”取决于旁观者的 GenAI。旁观者是谁?谁是负责人(诚然,在大型组织中,这并不总是一个简单的概念)。

当多个答案都以其自身的方式有效时,设计绩效指标是一项特殊的挑战,因为成功取决于背景、判断和主观偏好。

因此,作为领导者必须定义价值对您的组织意味着什么,然后在可能尚未做好准备的组织中倡导一种新的衡量思维方式。

克服这个障碍——这是一个关于人而非技术的巨大挑战——你将解锁巨大的机遇宝库。

克服无尽正确答案的挑战

让我分享一些可能有助于您的 GenAI 性能测量和基准测试之旅的建议:

  • 明确谁来决定。也许 GenAI 驱动的组织中最重要的问题根本不是技术问题:谁来决定成功是什么样子?
  • 明确目标。在无休止的正确答案环境中,衡量指标首先要明确您要实现的目标。您的目标是激发创造力、提高效率还是符合特定基调?还是完全不同的东西?
  • 成为有意义的作者。不要指望你的量化分析师提供简单的指标,而要欣赏设计 GenAI 指标的过程本身就有无数正确答案,并且需要勇敢的领导者做出判断。
  • 从足够好的角度来思考。不要比较正确答案,而要考虑设置标准,将复杂的输出缩减为熟悉的二进制:可接受或不可接受。请注意,如果您采用这种方法,您可能会找到减少模型升级的理由,这可能是最好的,特别是当输出不直接面向用户时。
  • 使用人工评分作为代理。借鉴社会科学和过去十年使用可信评分者对系统输出进行评分的最佳实践,您可以选择依靠人工对采样输出进行评估。
  • 尝试实验。避免直接测量麻烦的一种统计有效方法是运行受控实验(例如A/B 测试)来证明您的 GenAI 对您的某个 KPI 有实质性影响。
  • 将其与业务联系起来。在可能的情况下,用可衡量的关系来表达 GenAI 输出,以直接的业务指标,可以让你的方法立足于现实。

规模需求需要衡量

这一切与管理人类创意工作者有何不同?与人类工作者不同,人工智能系统无法为自己承担责任。

这取决于你作为领导者的职责。

如果你不愿意站出来为 GenAI 系统的价值发声,那么你就只能将 GenAI 作为一种工作效率工具,供你的员工随意使用。充其量,你只能开发出简单的人机交互系统,但仅此而已。

要释放 GenAI 的全部潜力,您必须直面承担无数正确答案的责任。

人工智能系统无法为自己承担责任。这是你作为领导者的责任。

现在,企业领导者需要成为价值的代言人,并根据预期的业务成果和价值来阐述 GenAI 的机会和优先事项。只有这样,组织才能团结一致,共同实现明确的目标,充分利用 GenAI 的全部力量。

作为一名领导者,从模糊性中创造意义将完全落在您的肩上:您越能树立新的清晰度和目的性标准,您就越能激励其他人迎接挑战。

相关资讯

新型人工智能“黑帽”工具:GhostGPT 带来的威胁与挑战

最近,Abnormal Security的研究人员发现了一个专门为网络犯罪创建的无审查AI聊天机器人——GhostGPT,是人工智能用于非法活动的新前沿,可以被用于网络钓鱼计划、恶意软件开发和漏洞利用开发。 GhostGPT的主要特点快速处理:使攻击者能够快速生成恶意内容。 无日志政策:声称不记录用户活动,吸引那些寻求匿名的人。

研究表明,生成式人工智能正在迅速而广泛地被采用

围绕人工智能的炒作达到了历史最高水平。 有时候,在科技行业,现实与宣传并不相符。 但对于人工智能,我相信这是有道理的。

MIT学者讲述生成式 AI 的故事,它会越来越了解你,你也不得不了解它

作者 | Adam Zewe快速浏览一下资讯类网站就会发现,如今生成人工智能似乎变得无处不在。事实上,其中一些新闻资讯可能是由生成式人工智能帮忙撰写的,例如 OpenAI 的 ChatGPT。但当人们说「生成式人工智能」时,他们真正的意思是什么?在过去几年生成式人工智能热潮之前,当人们谈论人工智能时,通常他们谈论的是可以学习根据数据进行预测的机器学习模型。例如,使用数百万个示例对此类模型进行训练,以预测特定 X 射线是否显示肿瘤迹象,或者特定借款人是否可能拖欠贷款。生成式人工智能可以被认为是一种机器学习模型,经过训