BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

机器之能报道编辑:吴昕比尔·盖茨说 GenAI 将彻底变革人类知识歇息,但终归是一个预测。经验层面,不人真正了解最先进的大型语言模型(如 GPT-4)的全部功能。不人真正知道运用它们的最佳方法,或者它们在什么条件下会失败。我们手里不运用手册。在某些义务上,GenAI 非常强大,但在其他义务上又会或完全或微妙地失败。除非经常运用 GenAI,否则你都搞不清楚自己遇到的到底是哪种情况。最近,OpenAI 总裁 Greg Brockman 转发了一项被顶尖征询公司波士顿征询集团( BCG )称为「史无前例」的实证研

机器之能报道

编辑:吴昕

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

比尔·盖茨说 GenAI 将彻底变革人类知识歇息,但终归是一个预测。

经验层面,不人真正了解最先进的大型语言模型(如 GPT-4)的全部功能。不人真正知道运用它们的最佳方法,或者它们在什么条件下会失败。我们手里不运用手册。在某些义务上,GenAI 非常强大,但在其他义务上又会或完全或微妙地失败。除非经常运用 GenAI,否则你都搞不清楚自己遇到的到底是哪种情况。最近,OpenAI 总裁 Greg Brockman 转发了一项被顶尖征询公司波士顿征询集团( BCG )称为「史无前例」的实证研讨,从经验层面证实了 GPT-4 对人类知识歇息的真正影响。

「很多人一直在问 AI 是否真的对未来歇息很重要。有篇新论文强烈表明答案是肯定的。」他写道。

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

Greg Brockman 转发的是一篇发表在 SSRN 上的歇息论文 Navigating the Jagged Technological Frontier: Field Experimental Evidence of the Effects of AI on Knowledge Worker Productivity and Quality ,由一支多学科的科研团队撰写,包括来自顶尖商学院的教授,比如宾夕法尼亚大学沃顿商学院、哈佛大学商学院、华威大学商学院以及 MIT 斯隆管理学院等。研讨团队调研采访了顶尖征询公司波士顿征询集团( BCG )的 758 名征询照料(约占集团征询职员总数的 7%),试图找到 GPT-4 这类大型语言模型如何影响复杂、知识密集型义务浮现的真凭实据。

结果发觉,运用 GPT-4 的征询师的业绩在各个维度(数量、速度和品质)上,都比不运用东西的征询师的浮现好得多。

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发仍然是一篇新的歇息论文,因此可能存在错误或错误并且该论文尚未经过同行评审,发表在了SSRN。论文作者之一沃顿商学院教授 Ethan Molick 也在自己的博客上介绍了这篇研讨。参与者被分为两组:一小组被要求想象他们在一家鞋业公司歇息,他们的经理要求他们开发一种新产品并在会议上展示。该小组的参与者还被要求实现其他几项行动,包括列出从推介到发布的步骤列表、创建营销口号以及撰写一篇 2,500 字的文章,描述开发鞋子的端到端流程和经验教训。不难看出,无论是产品构思(「针对服务不足的市场或运动提出至少 10 个新鞋创意。」)、分析(「根据用户细分鞋类行业市场。」)还是写作和营销义务(「起草一份新闻稿发布你的产品的营销文案。」)等,都属于 GPT-4 本领范围内的义务。而另一组则被要求解决业务问题,义务被设计得足够复杂,以至于 GPT-4 在解决它时会出错,因此它显然超出了 GPT-4 的本领界限。在这两组中,研讨参与者被分为三种情况:无法运用 AI、可以运用 GPT-4 AI 以及可以运用 GPT-4 AI 并了解如何运用 GPT。

一、本领界限之内

研讨发觉,针对「 GPT-4 本领范围内」的征询业务,运用了 GPT-4 的组别歇息浮现显著提高(平均实现的义务多了 12.2%,实现义务的速度提高了 25.1%),实现品质也更高(与对照组相比,品质提高了 40% 以上)。作者指出,GPT-4 东西的影响非常显著。BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发蓝色组表示不运用GPT-4 ,绿色组和赤色组均运用GenAI,其中赤色组接受了一些关于如何运用GenAI的额外培训。三组成员在具体征询义务中的浮现结果就像三颗牙齿,对比强烈。从上述效果图来看,运用 GPT-4 与否(蓝色牙齿代表不运用、绿色和赤色的牙齿部分代表运用)在最终效果呈现上,如同三颗牙齿,参差不齐,Ethan Molick 称之为 GenAI 的「锯齿状前沿」。BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发虚线代表同等难度的征询义务,蓝色线条代表AI的本领界限,在这条界限内的义务,AI可以实现的很好;落在蓝色以外的义务,AI 就力所不逮了。不过,蓝色曲线本身也是变化不居的,例如,当 GPT-4 在 3 月份首次发布时,它非常长于正确识别素数,准确率高达 98%。但到了 7 月,仅仅几个月后, 同样的测试得出的准确率只有 2%。这也是研讨职员第一次清楚勾勒出 GenAI 本领界限(上图蓝色曲线)——落在这条曲线(界限)内的义务,都是 GPT-4 长于并能辅助人类做得更好的;面对界限以外的义务,GPT-4 爱莫能助。这一发觉也是这篇研讨的重要贡献之一。在此之前,人们对这道界限的感知还是混沌的或者说是主观想象的。比如,同样是创作诗歌,GPT-4 可以写出不错的十四行诗(类似莎士比亚十四行诗)但却无法创作一首好的 50 个字的诗歌,为什么?现在清楚了——两个义务看似差不多,却正好落在界限的不同两侧——前者在本领界限之内,后者在界限以外。

这也解释了一些意想不到的义务 (如创意生成)对 GenAI 来说很容易,而诸如数学这类义务却构成挑战。Ethan Molick 总结说,发觉拥有 GPT-4 照料的浮现明显更好,无论我们是否首先向他们简要介绍 GenAI(图中的赤色部分)。而且,每个纬度的浮现——时间、数量和品质——都是如此。有趣的是,研讨职员还运用人类和 AI 两个评分系统对义务品质进行评分,结果「英雄所见略同」(如下面两个图所示)。

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发总共有54条线,因为有 18个征询义务,每个义务又分别对应3个回归模型:运用AI(绿色)、未运用(蓝色)、运用而且获得了培训(赤色)。Y轴记录了相应得分(人类根据具体效果打分),可以清楚看到赤色的优势。

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发和上图的区别在于,这里义务浮现评分是机器人打的。除了上述内容,研讨职员还发觉了一些其他有趣的东西,比如 GPT-4 还起到了技能水平调节器的作用。当评估得分最差的照料开始运用 GPT-4 时,他们的浮现提升幅度最大,达到 43%。得分高于平均水平的优秀照料在运用东西后,浮现仍然有所提升,只不过增幅不是很大。总体而言,GPT-4 可以增强不同水平的照料的业务浮现。BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发绿色的条形图报告他们在评估义务中的浮现,而蓝色的条形图表示他们在实验义务中的浮现。y轴表示平均值分数(1-10分)。当评估得分最差的照料开始运用GenAI时,他们的浮现涨幅最大,达到 43%。评估得分高于平均水平的照料,在运用AI东西后,浮现仍然有所提升,当然幅度并不那么大。Ethan Molick 认为,还不足够多的人考虑过,当一项技巧能将所有员工业务浮现提升到顶尖水平时将意味着什么。「这可能就像过去矿工采掘矿石,本领和水平有高有低,直到蒸汽铲诞生,一举抹平个人本领上的差异。AI 虽然还不到那种程度,但提升知识生产者整体业务水平将产生重大影响。」

二、本领界限以外

接下来移步 GenAI 本领界限以外,又会发生什么呢?为此,BCG 精心设计了一项义务,以确保 GenAI 无法得出正确答案。这个设计并不容易,正如论文中所说,「很难在前沿界限以外的实验中设计一项义务,让人类始终胜过 AI。」不过,他们还是确定了一项利用 AI 盲点的义务。三组被试被要求想象在一家拥有三个品牌的公司歇息,手上也有虚构公司的财务数据和采访记录,他们的义务是向公司CEO 写一份 500 到 750 字的备忘录,向老板解释应该投资哪些品牌来增加收入,并建议 CEO 采取创新行动来改进所选品牌。结果,不东西帮助的人类照料在 84% 的情况下解决了问题,运用 AI 的照料的浮现却更糟——只有60-70% 的情况下解决问题。运用 GPT-4 的参与者的浮现明显比对照组差——约 23%。GPT-4 不仅不能帮助人类实现这项义务,而且实际上会严重损害人类的浮现,这又是一个重大发觉。

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发此图显示界限外义务的平均浮现。红组反而倒数第一,之前倒数的蓝组反而成了第一。这与甩手掌柜情况有关。那么,到底发生了什么?Ethan Molick 提到了一篇研讨过分依赖 AI 结果适得其反的研讨 Falling Asleep at the Wheel: Human/AI Collaboration in a Field Experiment on HR Recruiters 。该研讨发觉,运用高品质 AI 的招聘职员变得懒惰、粗心,而且判断本领也较差。与运用低品质 AI 或者不用 AI 的招聘职员相比,他们错过了一些优秀的申请人,并做出了更糟糕的决定。论文称,当 AI 非常优秀的时候,人类会关闭大脑并遵循 AI 的建议,而这更有可能是错误的。Ethan Molick 指出,针对落在 GenAI 界限以外的义务,征询照料也乐得「甩手掌柜」,也会导致类似的后果——事实上,那些运用 GPT-4 的照料比那些不允许运用 GPT-4 照料得到的答案更不准确(但他们仍然比不运用 GenAI 的照料做得更好)。这表明,高技能脑力劳动者仍然需要继续验证 AI,发挥「在运用 AI 时的认知努力和专家判断」,而不是盲目地采用 AI 输出。

三、半人马和赛博格

综上,如果要像试验中的许多照料在前沿内、外义务上都做得很好——避免 AI 陷阱,又充分发挥了其所长——就要注意 GenAI 本领界限,「知人善用」。在本领界限内,人类给 GenAI 带来的价值非常小,但在本领界限外,人类在不 GenAI 的情况下歇息可以提高性能。这份研讨表明,在人类与 GenAI 融合的一系列过程中,人类成功运用 GenAI 的方式出现了两种独特的模式。一组照料充当「半人马」,就像神话中的半马/半人生物一样,将他们的解决方案创建活动划分并委托给 GenAI 或他们自己。比如,你将决定采用什么统计技巧,然后让 GenAI 处理生成图表。在这份 BCG 的研讨中,针对 GenAI 非常长于的义务中,需要最少的人类参与。半人马会做他们最长于的歇息,然后将锯齿状界限内的义务交给 GenAI 。BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

另一组照料的行为更像是「赛博格(半机器人)」,将他们的义务流程与 GenAI 完全集成,并不断与技巧交互。你不只是委派义务,而是将自己的努力与 GenAI 交织在一起,在锯齿状的界限上来回移动。运用 AI 起草文档就是一个典型例子,先启动一个句子让 GenAI 实现,这样你就会发觉自己在与 GenAI 协同歇息。

四、在前沿界限上起舞

无论关于 GenAI 的本质和未来的哲学之争进展如何,技巧本身已经对我们的实际歇息方式产生了强大的颠覆性。这不是一项需要打着「五年内改变世界、需要大量投资」的旗号大肆宣传的新技巧——它就在这里,现在。精英照料用来增强歇息的东西,和每位正在阅读这篇博文的读者的东西,完全相同。他们运用的东西很快就会比你可以运用的东西差得多,因为技巧前沿不仅是锯齿状,而且在不断扩大。明年至少有两家公司会发布比 GPT-4 更强大的模型,我对此很有信心。锯齿状的前沿正在往前推进,我们必须为此做好准备。即使撇开这种说法可能引起的任何焦虑,也要注意 GenAI 的缺点。人们在运用 AI 时,可能真的会「甩手掌柜」,不注意到它的错误。而且,与其他研讨一样,我们还发觉,GenAI 的输出虽然品质高于人类,但在总体上也有同质化倾向。这就是为什么半机械人和半人马的合作方式很重要——它们允许人类与 GenAI 合作,产生比单独依靠任何一方更多样、更好、更正确的结果。成为其中一员并不难,只要在歇息义务中运用足够多的 GenAI,你就会开始看到这条锯齿状界限,并开始了解它们在哪些方面好到可怕……以及它的不足之处。在我看来,问题不再是 GenAI 是否会重塑歇息,而是我们想要它意味着什么。我们可以选择如何运用 GenAI 来帮助使歇息更有效率、更有趣、更有意义。但我们必须尽快做出这些选择,这样我们才能开始以合乎道德和有价值的方式积极运用它,就像机器人和半人马一样,而不仅仅被动地对技巧变革做出反应。与此同时,这条锯齿状的前沿也总是变动不居,不断开疆扩土。论文传送门:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4573321参考链接

https://www.bcg.com/publications/2023/how-people-create-and-destroy-value-with-gen-aihttps://www.oneusefulthing.org/p/centaurs-and-cyborgs-on-the-jaggedhttps://fortune.com/2023/10/06/generative-ai-chatgpt-collaboration-bcg/https://mitsloan.mit.edu/ideas-made-to-matter/how-generative-ai-can-boost-highly-skilled-workers-productivity

给TA打赏
共{{data.count}}人
人已打赏
应用

有人要做「AI 迷信家」,每天刷上万篇论文还能提出假如,前谷歌董事长背书

2023-11-16 20:56:00

应用

Copilot 在吞噬世界,与 ChatGPT 一起

2023-11-16 21:45:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索