Copilot 在吞噬世界,与 ChatGPT 一起

机器之能报道编辑:SIa2023 年属于 AI (尤其是生成式 AI ),几乎每个人都或多或少尝试过大型语言模型 ( LLM ),无论是教师、政客、脱口秀甚至儿童活动支持人。凭借每周超过 1 亿的活跃用户,ChatGPT 跻身当之无愧的顶流。不过,很多日常用例只触及了大概性表面。透过表面,那些真正从事技巧职责的人们在利用广泛 AI 对象来改造产品、重构业务,或者以前所未有的方式提供客户体验.......至少,大家承诺如此。那么,真实情况是什么呢?8月,低代码开发平台独角兽 Retool 对 1,578 名技巧人员

机器之能报道

编辑:SIa

2023 年属于 AI (尤其是生成式 AI ),几乎每个人都或多或少尝试过大型语言模型 ( LLM ),无论是教师、政客、脱口秀甚至儿童活动支持人。凭借每周超过 1 亿的活跃用户,ChatGPT 跻身当之无愧的顶流。

不过,很多日常用例只触及了大概性表面。透过表面,那些真正从事技巧职责的人们在利用广泛 AI 对象来改造产品、重构业务,或者以前所未有的方式提供客户体验…….至少,大家承诺如此。

那么,真实情况是什么呢?

8月,低代码开发平台独角兽 Retool 对 1,578 名技巧人员(软件工程师、工程和业务领导者、高管、产品人员、设计师等)展开了一项关于生产用例、在利用的模型、基础设施和对象等方面的调查,全面了解他们如何利用和构建 AI 。

最近,凝结了调查结果的 《2023年 AI 生产力报告》新鲜出炉,被一些业内人士视为目前最全面的 AI 报告之一,提供了大量有关 AI+LLM 用例、技巧成熟阶段以及痛点方面的有效信息。

Copilot 在吞噬世界,与 ChatGPT 一起

LlamaIndex 的联合创始人兼首席执行官 Jerry Liu 表现,这份报告时目前最为全面的AI报告之一。有大量关于 AI+LLM 用例、技巧成熟阶段和痛点的有效信息。

以下是这份报告的详细内容,共分三部分。

一、AI 炒作真的存在?1、与大多数容易被炒作弄晕头的普通大众不同,这群真正从事技巧职责的受访者往往更具洞察力。事实上,调查显示,他们普遍觉得(51.6%),AI 有点被高估了,但不是那么严重。Copilot 在吞噬世界,与 ChatGPT 一起当前对AI的评价是否公允?51.6%的受访者觉得被高估;25.1%觉得被低估。觉得评价还算公允的占23.4%。其中,高层管理人员的看法最为正面。以 10 分为满分的话,VP(副总裁)级别受访者平均评分为 5,最高管理级别( C-suite,比如 CEO、CTO 等)平均评分为 5.3。IC(通常更接近普通技巧岗位,比如普通工程师)的评价偏向于高估,例如初级职工的平均评分为 5.9,中高级 IC 的平均评分为 6。Copilot 在吞噬世界,与 ChatGPT 一起低估、公允和高估的细分图。2、AI 真的会改变开发人员的学习和职责方式吗?谷歌 DeepMind 团队的职工曾经发文称,过去一年半,编程问答社区 Stack Overflow 的访问量下降了五成,马斯克称其已经被 LLM 取代。调查发现,57.% 的受访者表现,自 2022 年以来,他们利用 StackOverflow 的次数确实在减少,其中有 10.2% 的人说不再利用它。Copilot 在吞噬世界,与 ChatGPT 一起

受访者将 GitHub Copilot 和 ChatGPT 列为压倒性的原因(93.7%)。Copilot 在吞噬世界,与 ChatGPT 一起今年你利用 StackOverflow 的次数少了多少?最多的答案投给了「少了50%」,还有人甚至表现「不再利用」。「利用次数反而变多」的人数比例最少。3、如果 AI 可以取代 StackOverflow,那么,它可以取代……我们的职责吗?受访者普遍觉得,AI 将在未来 5 年内极大地改变他们的职责和所在行业。Copilot 在吞噬世界,与 ChatGPT 一起对人工智能对角色/行业影响的预期,只有极为少数的受访者觉得「不是很多」绝大多数观点都集中在了从「多少有点」 到「彻底改变」。其中,最大的圆圈(24.5%受访者)给到了9分的评价。按职责职能划分,以 10 分为满分,运营岗位对变革的预期最高( 7.8 ),其次是产品岗位( 7.5 ),以及数据和工程岗位(均在 7.4 左右)。设计师们不太相信,为 6.8。按资历划分,最高级别的管理者( C-suite)预计变化最大( 7.8 )。从行业来看,从农业到医疗保健,从媒体到金融,每个人都期望至少会发生一些变化:分数范围从 6(政府职责人员)到 8.3(人力资源)。受访者还对这些变化大概会是什么样子做出了一些预测:Copilot 在吞噬世界,与 ChatGPT 一起

看来还不错!但他们还有一个重要的要求:对 AI 监管和伦理进行投资,确保该技巧朝着积极方向发展。4、虽然不同角色、行业和实施方式对人工智能的看法略有不同,但大多数受访者觉得他们公司的事情进展顺利,或者渴望更多。Copilot 在吞噬世界,与 ChatGPT 一起公司在人工智能方面的投资领域,只有4.4%的受访者觉得公司投资过多了。绝大多数觉得正好(50.7%)或者还不够(44.9%)即使最大的 AI 怀疑论者(觉得人工智能被高估的受访者)中,也只有 4.4% 的人表现他们的公司在 AI 方面投资过度。这并不一定是矛盾的!相反,它大概表明,人们仍然将其视为一项有价值的技巧,尽管这项技巧大概还不够成熟,或者从受访者的角度来看还没有完全达到有效的阈值。Copilot 在吞噬世界,与 ChatGPT 一起追求人工智能的动机各不同。其中占比最大的前三位动机包括降本、跟上趋势以及满足客户真实需求。收入方面的考量反而是最不常见的激励因素。更进一步,我们要求受访者推测所在公司追求 AI 的潜在动机。节省成本(尤其是职工人数不足 500 人的公司)和紧跟潮流是最重要的。另一方面,收入影响被视为最不常见的激励因素(即使影响很小)。至少就目前而言,也许在当前的宏观经济环境下,AI 似乎大概被视为一种削减成本的方式,而不是创造更多业务的方式。5、为了更深入地了解与 AI 相关的认知和变化,我们还要求受访者评估优先雇佣会用 Github Copilot 、ChatGPT 写代码的候选人的大概性。

在 0 到 10 的评分范围内,他们给出的平均分为 6.7 分,倾向于「更有大概」。

Copilot 在吞噬世界,与 ChatGPT 一起优先雇用能够有效利用 ChatGPT/Copilot 进行编码的工程师?5分(不会给于优先考虑)占比最多,其次是10分(「很有大概」)占比16.6%。然而,公司领域不同,答案存在一些差异:在较小的公司和刚刚起步的初创公司( 1-9 名职工),大概性水平最高,为 7.1。对于 1000-4999人领域的企业来说,下降了一个百分点,为 6.1。其余的都集中在平均值附近。虽然利用 AI 写代码的能力对大多数人( 63.2% )产生了一定水平的积极影响,但相当一部分受访者( 27.1% )仍然相当中立。(受访者很少觉得 Copilot 或 ChatGPT 技能是一种损害。)这对于技巧面试(technical interviews)意味着什么?回应也同样存在分歧。大多数受访者( 60.3% )表现,他们的公司尚未改变招聘做法,但近一半的受访者(占总数的 28.4% )预计明年会改变。相当少数( 21.2% )表现,他们的招聘流程允许利用任何 AI 对象。(拥有 1,000-4,999 名职工的中型企业最有大概— 45%—注意到作为补偿,公司增加了技巧面试的难度。所有其他领域的组织都处于不到 30%的中低水平。)二、实用性和采用现状AI——尤其是以 LLM 形式——不再只是计算机科学的研究人员和博士的专利,各类公司都已经注意到了这一点。那么,企业以及构建它们的团队如何真正将 AI 运用到职责中呢?1、大多数公司都处于 AI 采用早期阶段。众所周知,各公司一直在和对手比赛,看谁更快地将 AI 应用到其流程中,提供相关的「AI 产品」 甚至将自己重新定位为「 AI 公司」。Copilot 在吞噬世界,与 ChatGPT 一起公司的人工智能采用水平,29.6%的受访者还在做打地基的职责;19。3%的受访者仅有一些临时性用例。15.7%还开始采用AI。因此,大多数( 77.1% )的受访者表现,他们的公司已经为采用 AI 做出了某种努力。但大约一半( 48.9% )表现这些努力才刚刚起步——只是刚刚开始或临时用例。此外,15.7% 尚未真正开始,而且大概不会很快开始。2、我们来谈谈用例。当然,企业可以通过多种方式在外部和外部采用 AI。66.2%受访者表现公司至少有一个外部用例;43.1% 的受访者表现至少有一个外部用例。外部和外部用例之间存在相当大的鸿沟。随着技巧、法规和普遍理解的快速发展,外部用例大概被视为「更安全」或某种试验场。通过将用例保留在外部提供的相对自由裁量权可以在公司担心事物损坏、数据问题或缺乏控制时,提供保护。Copilot 在吞噬世界,与 ChatGPT 一起

3、外部 AI 用例涵盖各个领域。需要注意的是,在这项调查中,技巧职工比许多公司的花名册中更有代表性,工程师似乎在得到 AI 的帮助。自动或辅助代码和查询编写( 47.5% )以及调试帮助( 32.4% )非常受欢迎。知识管理——以知识库问答( 36.2% )和支持聊天机器人( 28.9% )的形式——也相对普遍,而营销和创意用例,如文案写作( 32.9% )似乎也受到了一些青睐。

Copilot 在吞噬世界,与 ChatGPT 一起外部 AI 用例

尽管怀疑论者并没有被「这东西太神奇了!」齐声淹没,但受访者普遍觉得其公司的外部用例具有一定水平的有效性。(36.8% 的人觉得它们「非常有效」,42.9% 的人说「多少有些用」,16.8% 的人说「有点用」。)只有 3.4% 的人说「不太有效」或更糟。

Copilot 在吞噬世界,与 ChatGPT 一起外部 AI 用例有效性调查,96.5%的人觉得多少有点用。公司在 AI 方面的成熟度与受访者觉得 AI 有效水平之间,似乎也存在有意义的相关性。在自称 AI 采用行业领先的公司职责的受访者中,44.1% 表现该技巧「非常有效」。如果公司刚刚完成基础性职责,只有 27.3% 的受访者持相同看法。有趣的是,这些行业领先公司的受访者也最有大概将其描述为没有效,或者有时「完全是浪费时间」。人们对这项技巧越熟悉,意见似乎就越强烈——这很公平。4、那些面向公司外部客户的用例怎么样?虽然公司可以构建的大概性几乎是无限的,但大多数受访者面向客户的用途都能归纳为几个关键类别。「产品本身提供的功用(In-product features)」——包括职责流程自动化、搜索、可视化、内容审核等——占比领先( 30.6% ) ,客户支持聊天机器人( 26.5% )和知识库问答( 26% )紧随其后。Copilot 在吞噬世界,与 ChatGPT 一起面向客户的 AI 用例5、准确性和数据安全是痛点。无论你用 AI 做什么,今天的 AI 对象都不太大概是完美的。了解任何技巧的优点和缺点都可以帮助您更好地利用它,而对于受访者来说,输出准确性是最常见的问题。(幻觉——并非完全无关的现象——排在第三位。)Copilot 在吞噬世界,与 ChatGPT 一起开发 AI 应用程序的痛点数据安全是另一个痛点问题,人们对它的担忧几乎与公司领域的增长呈线性关系:Copilot 在吞噬世界,与 ChatGPT 一起AI数据安全是核心问题考虑到这一点,公司仍在研究 AI 如何融入其数据策略。31.7% 的受访者表现,他们的公司没有关于 AI 数据利用的明确策略。另外 19.8% 的人不确定是否存在策略或具体策略是什么。另一半受访者确实注意到某种形式的数据策略。最常见的策略要么只允许利用匿名的非个人身份信息( PII 数据,21.4%),要么对特定类别的数据施加限制 (14.6% )。少数受访者( 6.6% )不被允许将任何公司数据与 AI 一起利用;类似的比例( 6.2% )策略允许利用任何数据,只要没有供应商在该数据上训练其模型即可。不出所料,大公司很大概会对其进行控制。拥有 1,000 名以上职工的企业最有大概( 90% ) 制定严格的数据策略。此外,与领域较小的公司相比,领域超过 500 人的公司更有大概( 41-43% )将数据安全视为关键的AI 问题——只有约 30% 的职工人数不足 50 人的公司也这么觉得。在各个部门和行业中,数据策略的严格水平是不同的。在监管水平比较低的一端,不到 40% 的非营利组织( 31% )和教育部门( 35% )受访者表现,他们的公司实行严格的数据策略。在监管水平严格的领域,医疗保健( 59% )比紧随其后的能源( 48% )领先11 个百分点。金融服务通常被觉得是严格且高度监管的领域,但处于中间位置,占 44%。5、(几乎)每个人都在职责中利用 AI,无论是否被允许。职责场所中显然有大量 AI 的利用—— 54% 在职责中利用 AI 的受访者是在鼓励 AI 的公司中利用——但并非所有事情都是公开的。34.4% 的受访者表现他们在秘密利用 AI 职责,尽管大多数人仍在遵守规则。( 57% 的受访者表现他们在公司策略范围内利用它。)Copilot 在吞噬世界,与 ChatGPT 一起在职责中偷偷利用人工智能?!虽然人们都清楚可以公开利用 AI ,为什么要秘密地利用 AI?到底是怎么回事?对于那些在黑暗的掩护下利用 AI 的人来说——也就是说,在公司策略之外——有些人大概会违反规则,这是肯定的。但这个数字大概至少部分反映了数据策略的模糊性或尚未制定策略。这将是一个值得关注的部分——随着 AI 变得越来越可用、安全和易于理解,我们可以由此观察到自己与 AI 的关系将如何变化。三、对象领导者用于定制和改进 AI 应用程序的对象套件在不断涌现。哪些基础设施、模型和应用程序在让奇迹发生——公司开发自己的 AI 解决方案要解决哪些问题?1、OpenAI 模型是构建 AI 应用程序的主要选择。当一家公司想用 AI 驱动自己的产品时,并不缺乏可供选择的 LLM——我们在调查中问了十几个,受访者还写了其他的选择。也就是说,OpenAI 无疑占据了很大的市场份额——可以说,目前,他们的模型似乎是受访者的默认选项。Copilot 在吞噬世界,与 ChatGPT 一起最经常被用到的排名靠前的模型分布Copilot 在吞噬世界,与 ChatGPT 一起不是经常用到的模型分布情况ChatGPT 的各种风格模型(按顺序为 4、3.5 和 3 )是大多数受访者 ( 80.1% ) 最常用的模型。如果受访者利用其中一种模型,他们几乎也总是利用另一种( 88.9% )。当我们询问不那么常用到的模型时,事情开始变得更加有趣。这些不同风格的 GPT 仍占近一半( Dall-E 取得了很大的飞跃,跃居到了第三位),其他类似 Claude 和 LaMDA 似乎变得更重要。Copilot 在吞噬世界,与 ChatGPT 一起另一种角度看待排名靠前的模型分布——象限图2、超越开箱即用的 LLM 是例外,而不是规则。由于许多受访者主要利用 OpenAI 模型,因此我们在他们职责的公司中看到类似的模式是合理的。三分之二的受访者( 68.7% )表现,他们的公司在利用托管模式。19.6% 的人计划在不久的将来运行开源模型;大约一半利用托管模型的受访者没有计划进行自托管。剩下约 30% 的受访者在 HuggingFace 等云提供商上运行开源模型和完全自托管之间,各占一半。自托管随着公司领域的增加而增加:

Copilot 在吞噬世界,与 ChatGPT 一起自托管随着公司领域的增加而增加深入挖掘后,我们发现近一半( 48.1% )的受访者表现他们的公司目前没有对其模型进行任何定制,22.1 % 的受访者表现他们不需要定制。Copilot 在吞噬世界,与 ChatGPT 一起当被问及如何自定义模型?26%受访者表现他们的公司目前没有对其模型进行任何定制,未来有计划。25.7%的受访者表现有微调。22.1%表现不需要定制。仅19.5%外部建立自己的模型。在谈到开发对象时,近 40% 的受访者表现他们的公司没有利用任何 AI 基础设施对象;另外约 16% 表现,自己外部建造。在受访者排名的对象中,Hugging Face 占据领先地位(尤其是在 100 人以下的公司中,有趣的是,超过 5000 人的公司,比例从 41% 到 54% 不等),其次是 LangChain。Copilot 在吞噬世界,与 ChatGPT 一起最流行的 AI 开发对象围绕即时工程和测试模型输出的实践似乎也刚刚起步。近四分之一的受访者根本不跟踪即时性能,而另外约 35% 的受访者只进行手动测试。在那些测量和测试新的即时性能的公司中,手动测试在职工人数少于 500 人的公司中最为常见(占比为 44-47% ),而对于中型企业来说,手动测试显著下降至 32% 。外部对象扭转了这种模式,中型企业占 23% , 500 人以下的公司占 9-15%。Copilot 在吞噬世界,与 ChatGPT 一起测量 prompt 性能方式

3、Copilot 在吞噬世界(与 ChatGPT 一起)。尽管许多公司仍在寻找立足点,但 AI 对工程师的作用似乎在具体化。像 GitHub Copilot 这样的对象在受访者今天利用(和喜欢)的功用中处于领先地位。值得注意的是,Copilot 有时被称为程序员搭档,不仅被工程( 42% )等技巧团队利用,甚至设计团队( 13% )和运维团队( 22% )也表现他们利用它。

Copilot 在吞噬世界,与 ChatGPT 一起

排名靠前的 AI 功用和应用程序,仅显示了至少有 1% 的受访者利用的功用。

在我们询问的 19 个功用应用中,只有两项被超过 10% 的受访者利用:Copilot 和 Grammarly。(上图仅显示了至少有 1% 的受访者利用的功用。)大约五分之一的受访者没有利用任何功用。当然,某个功用的受欢迎水平大概在某种水平上取决于该产品的整体受欢迎水平、该功用的成熟度和可用性等。由于 GitHub 拥有超过 1 亿用户,而 Grammarly 的出现时间比名单上的大多数其他公司都要长几年,更不用说对于许多受访者来说,编写代码和文字的内在必要性,这两者很大概具有一些固有的优势。可是等等!还有更多。作为 GitHub Copilot 已实现一定水平的产品市场契合度的进一步证据, 68% 的受访者将其列为最重要的三个 AI 助手之一,仅次于 ChatGPT,后者几乎在所有受访者( 96.9% ) 中排名前三。( Google Bard 在这场三人赛中排名第三,得分为 47.6% 。)目前,就特定对象而言, Copilot 很大概是 AI 杀手级应用的一个例子:高利用率、高影响力、高满意度。

4、矢量数据库,现在还处于早期阶段。由于公司大多利用开箱即用的托管模型,矢量数据库更像是一个未开发的领域,只有不到 20% 的受访者在利用矢量数据库。但利用它们大概就意味着喜欢它们:所有排名前半部分的流行度都被评为相对中立到积极的。

Copilot 在吞噬世界,与 ChatGPT 一起排名靠前的矢量数据库考虑到所有这些,目前采用率较低的原因大概有多种——三分之二以上的公司处于早期阶段,其中最主要的是托管模型。尽管如此,还是有差异的:有些人大概缺乏投资资源,团队大概没有必要的专业知识,而其他人大概不知道随着 AI 实施的成熟,向量数据库可以提供的价值。

在目前利用矢量数据库的相对较小的受访者中,没有明显的赢家——尽管 Pinecone 以 20.1% 的比例领先,其次是 MongoDB(19.4%)和 pg_vector( 17.8% )。还有一些按公司领域分类的模式(但请记住,结论大概会受到此处样本量较小的影响)。Copilot 在吞噬世界,与 ChatGPT 一起Pinecone 最受 1-99 名职工的公司欢迎;Postgres (pg_vector) 最受 100-999 名职工的公司欢迎;Chroma 最受 1000+ 职工公司的欢迎进一步剖析数据,最引人注目的数字出现在职工人数为 500 至 999 的公司中。63%利用向量数据库的受访者表现是 pg_vector(是大多数其他公司领域的两倍多);他们还报告称,与其他领域的公司相比,Pinecone 的利用率( 19% )要低得多,其他领域的公司的 Pinecone 利用率通常在 30% 到 40% 左右。

总而言之,随着该领域的成熟,任何人都大概在这场游戏中获胜。四、2023 年人工智能的状况如何?虽然 AI 的许多要素对于日常用户来说仍然遥不可及,但 LLM 今年却呈爆炸式增长。目前,公司大多是 GitHub Copilot 等人工智能应用程序的消费者,如果他们在构建自己的东西,很大概是利用 GPT- 4(或 3.5 … 或 3 … )的外部用例。随着形势的发展,公司是否会开始微调他们的模型,用向量数据库增强模型,并迭代他们的 LLM Prompt?他们会为 AI 的利用制定深思熟虑的策略和护栏,并鼓励秘密利用 LLM 的职工公开利用它们吗?我们拭目以待。目前,每个人都在思考很多重大问题,很多受访者还想要谈论:

Copilot 在吞噬世界,与 ChatGPT 一起

很明显,无论他们是看涨、看跌还是只是随波逐流,各个行业和角色的技巧人员都在认真思考 AI 的大概性和影响,以及它们将如何塑造未来的许多方面。我们觉得,这一充满活力的篇章才仅仅开了一个头。PS:以下是 1,578 位受访者所属行业、岗位、公司的统计。

Copilot 在吞噬世界,与 ChatGPT 一起

Copilot 在吞噬世界,与 ChatGPT 一起

Copilot 在吞噬世界,与 ChatGPT 一起

参考链接

https://retool.com/reports/state-of-ai-2023

给TA打赏
共{{data.count}}人
人已打赏
应用

BCG联手哈佛,史无前例验证GPT-4是把双刃剑,OpenAI总裁转发

2023-11-16 21:39:00

应用

被google收买后,我终于知道为什么大模型竞争落后于OpenAI了

2023-11-16 21:49:00

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧
个人中心
今日签到
搜索