BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发

机器之能报道编辑：吴昕比尔·盖茨说 GenAI 将彻底变革人类知识歇息，但终归是一个预测。经验层面，不人真正了解最先进的大型语言模型（如 GPT-4）的全部功能。不人真正知道运用它们的最佳方法，或者它们在什么条件下会失败。我们手里不运用手册。在某些义务上，GenAI 非常强大，但在其他义务上又会或完全或微妙地失败。除非经常运用 GenAI，否则你都搞不清楚自己遇到的到底是哪种情况。最近，OpenAI 总裁 Greg Brockman 转发了一项被顶尖征询公司波士顿征询集团（ BCG ）称为「史无前例」的实证研

机器之能报道

编辑：吴昕

比尔·盖茨说 GenAI 将彻底变革人类知识歇息，但终归是一个预测。

经验层面，不人真正了解最先进的大型语言模型（如 GPT-4）的全部功能。不人真正知道运用它们的最佳方法，或者它们在什么条件下会失败。我们手里不运用手册。在某些义务上，GenAI 非常强大，但在其他义务上又会或完全或微妙地失败。除非经常运用 GenAI，否则你都搞不清楚自己遇到的到底是哪种情况。最近，OpenAI 总裁 Greg Brockman 转发了一项被顶尖征询公司波士顿征询集团（ BCG ）称为「史无前例」的实证研讨，从经验层面证实了 GPT-4 对人类知识歇息的真正影响。

「很多人一直在问 AI 是否真的对未来歇息很重要。有篇新论文强烈表明答案是肯定的。」他写道。

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发

Greg Brockman 转发的是一篇发表在 SSRN 上的歇息论文 Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ，由一支多学科的科研团队撰写，包括来自顶尖商学院的教授，比如宾夕法尼亚大学沃顿商学院、哈佛大学商学院、华威大学商学院以及 MIT 斯隆管理学院等。研讨团队调研采访了顶尖征询公司波士顿征询集团（ BCG ）的 758 名征询照料（约占集团征询职员总数的 7%），试图找到 GPT-4 这类大型语言模型如何影响复杂、知识密集型义务浮现的真凭实据。

结果发觉，运用 GPT-4 的征询师的业绩在各个维度（数量、速度和品质）上，都比不运用东西的征询师的浮现好得多。

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发仍然是一篇新的歇息论文，因此可能存在错误或错误并且该论文尚未经过同行评审，发表在了SSRN。论文作者之一沃顿商学院教授 Ethan Molick 也在自己的博客上介绍了这篇研讨。参与者被分为两组：一小组被要求想象他们在一家鞋业公司歇息，他们的经理要求他们开发一种新产品并在会议上展示。该小组的参与者还被要求实现其他几项行动，包括列出从推介到发布的步骤列表、创建营销口号以及撰写一篇 2,500 字的文章，描述开发鞋子的端到端流程和经验教训。不难看出，无论是产品构思（「针对服务不足的市场或运动提出至少 10 个新鞋创意。」）、分析（「根据用户细分鞋类行业市场。」）还是写作和营销义务（「起草一份新闻稿发布你的产品的营销文案。」）等，都属于 GPT-4 本领范围内的义务。而另一组则被要求解决业务问题，义务被设计得足够复杂，以至于 GPT-4 在解决它时会出错，因此它显然超出了 GPT-4 的本领界限。在这两组中，研讨参与者被分为三种情况：无法运用 AI、可以运用 GPT-4 AI 以及可以运用 GPT-4 AI 并了解如何运用 GPT。

一、本领界限之内

研讨发觉，针对「 GPT-4 本领范围内」的征询业务，运用了 GPT-4 的组别歇息浮现显著提高（平均实现的义务多了 12.2%，实现义务的速度提高了 25.1%），实现品质也更高（与对照组相比，品质提高了 40% 以上）。作者指出，GPT-4 东西的影响非常显著。 BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发蓝色组表示不运用GPT-4 ，绿色组和赤色组均运用GenAI，其中赤色组接受了一些关于如何运用GenAI的额外培训。三组成员在具体征询义务中的浮现结果就像三颗牙齿，对比强烈。从上述效果图来看，运用 GPT-4 与否（蓝色牙齿代表不运用、绿色和赤色的牙齿部分代表运用）在最终效果呈现上，如同三颗牙齿，参差不齐，Ethan Molick 称之为 GenAI 的「锯齿状前沿」。 BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发虚线代表同等难度的征询义务，蓝色线条代表AI的本领界限，在这条界限内的义务，AI可以实现的很好；落在蓝色以外的义务，AI 就力所不逮了。不过，蓝色曲线本身也是变化不居的，例如，当 GPT-4 在 3 月份首次发布时，它非常长于正确识别素数，准确率高达 98%。但到了 7 月，仅仅几个月后，同样的测试得出的准确率只有 2%。这也是研讨职员第一次清楚勾勒出 GenAI 本领界限（上图蓝色曲线）——落在这条曲线（界限）内的义务，都是 GPT-4 长于并能辅助人类做得更好的；面对界限以外的义务，GPT-4 爱莫能助。这一发觉也是这篇研讨的重要贡献之一。在此之前，人们对这道界限的感知还是混沌的或者说是主观想象的。比如，同样是创作诗歌，GPT-4 可以写出不错的十四行诗（类似莎士比亚十四行诗）但却无法创作一首好的 50 个字的诗歌，为什么？现在清楚了——两个义务看似差不多，却正好落在界限的不同两侧——前者在本领界限之内，后者在界限以外。

这也解释了一些意想不到的义务 (如创意生成）对 GenAI 来说很容易，而诸如数学这类义务却构成挑战。Ethan Molick 总结说，发觉拥有 GPT-4 照料的浮现明显更好，无论我们是否首先向他们简要介绍 GenAI（图中的赤色部分）。而且，每个纬度的浮现——时间、数量和品质——都是如此。有趣的是，研讨职员还运用人类和 AI 两个评分系统对义务品质进行评分，结果「英雄所见略同」（如下面两个图所示）。

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发总共有54条线，因为有 18个征询义务，每个义务又分别对应3个回归模型：运用AI（绿色）、未运用（蓝色）、运用而且获得了培训（赤色）。Y轴记录了相应得分（人类根据具体效果打分），可以清楚看到赤色的优势。

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发和上图的区别在于,这里义务浮现评分是机器人打的。除了上述内容，研讨职员还发觉了一些其他有趣的东西，比如 GPT-4 还起到了技能水平调节器的作用。当评估得分最差的照料开始运用 GPT-4 时，他们的浮现提升幅度最大，达到 43%。得分高于平均水平的优秀照料在运用东西后，浮现仍然有所提升，只不过增幅不是很大。总体而言，GPT-4 可以增强不同水平的照料的业务浮现。 BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发绿色的条形图报告他们在评估义务中的浮现，而蓝色的条形图表示他们在实验义务中的浮现。y轴表示平均值分数(1-10分)。当评估得分最差的照料开始运用GenAI时，他们的浮现涨幅最大，达到 43%。评估得分高于平均水平的照料，在运用AI东西后，浮现仍然有所提升，当然幅度并不那么大。Ethan Molick 认为，还不足够多的人考虑过，当一项技巧能将所有员工业务浮现提升到顶尖水平时将意味着什么。「这可能就像过去矿工采掘矿石，本领和水平有高有低，直到蒸汽铲诞生，一举抹平个人本领上的差异。AI 虽然还不到那种程度，但提升知识生产者整体业务水平将产生重大影响。」

二、本领界限以外

接下来移步 GenAI 本领界限以外，又会发生什么呢？为此，BCG 精心设计了一项义务，以确保 GenAI 无法得出正确答案。这个设计并不容易，正如论文中所说，「很难在前沿界限以外的实验中设计一项义务，让人类始终胜过 AI。」不过，他们还是确定了一项利用 AI 盲点的义务。三组被试被要求想象在一家拥有三个品牌的公司歇息，手上也有虚构公司的财务数据和采访记录，他们的义务是向公司CEO 写一份 500 到 750 字的备忘录，向老板解释应该投资哪些品牌来增加收入，并建议 CEO 采取创新行动来改进所选品牌。结果，不东西帮助的人类照料在 84% 的情况下解决了问题，运用 AI 的照料的浮现却更糟——只有60-70% 的情况下解决问题。运用 GPT-4 的参与者的浮现明显比对照组差——约 23%。GPT-4 不仅不能帮助人类实现这项义务，而且实际上会严重损害人类的浮现，这又是一个重大发觉。

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发此图显示界限外义务的平均浮现。红组反而倒数第一，之前倒数的蓝组反而成了第一。这与甩手掌柜情况有关。那么，到底发生了什么？Ethan Molick 提到了一篇研讨过分依赖 AI 结果适得其反的研讨 Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters 。该研讨发觉，运用高品质 AI 的招聘职员变得懒惰、粗心，而且判断本领也较差。与运用低品质 AI 或者不用 AI 的招聘职员相比，他们错过了一些优秀的申请人，并做出了更糟糕的决定。论文称，当 AI 非常优秀的时候，人类会关闭大脑并遵循 AI 的建议，而这更有可能是错误的。Ethan Molick 指出，针对落在 GenAI 界限以外的义务，征询照料也乐得「甩手掌柜」，也会导致类似的后果——事实上，那些运用 GPT-4 的照料比那些不允许运用 GPT-4 照料得到的答案更不准确（但他们仍然比不运用 GenAI 的照料做得更好）。这表明，高技能脑力劳动者仍然需要继续验证 AI，发挥「在运用 AI 时的认知努力和专家判断」，而不是盲目地采用 AI 输出。

三、半人马和赛博格

综上，如果要像试验中的许多照料在前沿内、外义务上都做得很好——避免 AI 陷阱，又充分发挥了其所长——就要注意 GenAI 本领界限，「知人善用」。在本领界限内，人类给 GenAI 带来的价值非常小，但在本领界限外，人类在不 GenAI 的情况下歇息可以提高性能。这份研讨表明，在人类与 GenAI 融合的一系列过程中，人类成功运用 GenAI 的方式出现了两种独特的模式。一组照料充当「半人马」，就像神话中的半马/半人生物一样，将他们的解决方案创建活动划分并委托给 GenAI 或他们自己。比如，你将决定采用什么统计技巧，然后让 GenAI 处理生成图表。在这份 BCG 的研讨中，针对 GenAI 非常长于的义务中，需要最少的人类参与。半人马会做他们最长于的歇息，然后将锯齿状界限内的义务交给 GenAI 。 BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发

另一组照料的行为更像是「赛博格（半机器人）」，将他们的义务流程与 GenAI 完全集成，并不断与技巧交互。你不只是委派义务，而是将自己的努力与 GenAI 交织在一起，在锯齿状的界限上来回移动。运用 AI 起草文档就是一个典型例子，先启动一个句子让 GenAI 实现，这样你就会发觉自己在与 GenAI 协同歇息。

四、在前沿界限上起舞

无论关于 GenAI 的本质和未来的哲学之争进展如何，技巧本身已经对我们的实际歇息方式产生了强大的颠覆性。这不是一项需要打着「五年内改变世界、需要大量投资」的旗号大肆宣传的新技巧——它就在这里，现在。精英照料用来增强歇息的东西，和每位正在阅读这篇博文的读者的东西，完全相同。他们运用的东西很快就会比你可以运用的东西差得多，因为技巧前沿不仅是锯齿状，而且在不断扩大。明年至少有两家公司会发布比 GPT-4 更强大的模型，我对此很有信心。锯齿状的前沿正在往前推进，我们必须为此做好准备。即使撇开这种说法可能引起的任何焦虑，也要注意 GenAI 的缺点。人们在运用 AI 时，可能真的会「甩手掌柜」，不注意到它的错误。而且，与其他研讨一样，我们还发觉，GenAI 的输出虽然品质高于人类，但在总体上也有同质化倾向。这就是为什么半机械人和半人马的合作方式很重要——它们允许人类与 GenAI 合作，产生比单独依靠任何一方更多样、更好、更正确的结果。成为其中一员并不难，只要在歇息义务中运用足够多的 GenAI，你就会开始看到这条锯齿状界限，并开始了解它们在哪些方面好到可怕……以及它的不足之处。在我看来，问题不再是 GenAI 是否会重塑歇息，而是我们想要它意味着什么。我们可以选择如何运用 GenAI 来帮助使歇息更有效率、更有趣、更有意义。但我们必须尽快做出这些选择，这样我们才能开始以合乎道德和有价值的方式积极运用它，就像机器人和半人马一样，而不仅仅被动地对技巧变革做出反应。与此同时，这条锯齿状的前沿也总是变动不居，不断开疆扩土。论文传送门：https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321参考链接

https://www.bcg.com/publications/2023/how-people-create-and-destroy-value-with-gen-aihttps://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jaggedhttps://fortune.com/2023/10/06/generative-ai-chatgpt-collaboration-bcg/https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-can-boost-highly-skilled-workers-productivity

{{userData.name}}已认证

BCG联手哈佛，史无前例验证GPT-4是把双刃剑，OpenAI总裁转发

有人要做「AI 迷信家」，每天刷上万篇论文还能提出假如，前谷歌董事长背书

Copilot 在吞噬世界，与 ChatGPT 一起

AI 被连续否定 30 次：ChatGPT 越改越错，Claude 坚持自我，甚至已读不回

顺丰发布“丰语”大语言模型：摘要准确率超 95%，号称物流垂域能力超越通用模型

字节打造“ AI 全家桶”：教育 App 河马爱学更名“豆包爱学”

谷歌 NotebookLM 新增 Audio Overview 功能：生成 2 位 AI 主播，围绕用户文档展开播客式交流

用60%成本干80%的事，DeepSeek分享沉淀多年的高性能深度学习架构

北大王立威：理论视角看大模型，为什么AI既聪明又愚蠢 | 智者访谈

秒变Midjourney高手！精选 78 条高级感的 sref 风格代码

研究：反复使用 AI 生成的内容来训练 AI 可造成“模型崩溃”