小型语言模型 (SLM) 提供了比大型语言模型 (LLM) 更具成本效益的特定领域解决方案。
译自Small Language Models vs. LLMs: What They’ll Mean for Businesses in 2025,作者 Souvik Das。
随着生成式AI的进步以惊人的速度继续改变运营和流程,组织正处于一个关键时刻。
麦肯锡公司2024年5月的一份报告显示,65%的受访者现在至少在一个业务职能中定期使用生成式AI(GenAI)——几乎是十个月前的数据的两倍。
然而,虽然一些公司正在收获早期回报,但另一些公司却在与实施复杂性作斗争,而规则仍在制定中。鉴于这种“蛮荒西部”的环境,挑战是显而易见的:随着GenAI准备加速各行各业人们的工作,企业领导者必须选择如何有效地利用其潜力。
根据IBM 2024年5月调查结果,62%的CEO愿意在AI采用方面承担比竞争对手更大的风险,其中一半(51%)承认,对落后的恐惧促使他们在甚至不清楚其价值的情况下投资某些技术。在这种情况下,企业面临着大量关于如何最好地采用和运行GenAI的决策——从选择合适的基础设施提供商和模型到管理组织内部的组织变革。
在这个快速变化的环境中,以下是我们积累的关键经验,这些经验可以帮助领导者就如何以最有效的方式向前推进其GenAI投资做出关键决策。
生成式AI采用趋势
一旦预算分配完毕,CTO和应用程序开发人员必须考虑许多可用的GenAI提供商。决策者必须评估每个模型或基础设施的优势、风险和价格性能,因为GenAI/LLM工具并非都相同。此外,像谷歌和亚马逊这样的行业巨头不断更新和创新他们的模型。每个模型都有不同的优势、能力和专长,可扩展性和可定制性水平也不同。不同行业的公司将有独特的需求,公司内部的不同部门也将有特定的要求。
Gartner 2024年的调查发现,利用嵌入现有应用程序中的GenAI(例如,Microsoft的Copilot for 365或Adobe Firefly)是实现GenAI用例的主要方法。其次是定制GenAI模型及提示工程(25%),训练或微调定制的GenAI模型(21%),或使用独立的GenAI工具,如ChatGPT或Gemini(19%)。但是,例如,如何在一个OpenAI、Anthropic或Meta的开源Llama之间做出决定呢?
评估用于商业用途的生成式AI模型
我们建议循序渐进——但不要过于循序渐进以至于陷入瘫痪。企业的一个模型评估团队或小型组织的个人应该探索哪些模型更适合特定应用程序和查询。理想情况下,团队将对不同模型的功效和效率获得实际的理解。模型评估团队还应该预测失误,并在试用后保持尝试不同模型的开放态度,因为GenAI模型仍在不断改进。
需要多少提示工程?
在选择集成GenAI工具的方法时,领导者必须考虑他们必须投入多少时间和资源来训练他们的模型。为通用任务设计的预训练模型需要最少的提示工程。在金融、能源或医疗保健等受严格监管的行业中的组织会发现,他们的用例需要大量的提示工程来为他们的模型创建防护措施。参与内容创作、营销和客户服务的人员需要更轻松的培训,以确保回复专业、公正且符合品牌策略。金融服务或医疗保健公司必须确保技术能够满足其用例和客户需求。 大多数公司都需要一定程度的提示工程来微调工具以适应其领域。简单来说,你训练 GenAI 的越好,结果就越好。大多数行业可能会选择更符合其需求的定制模型,而不是现成的解决方案,这完全有可能。能源公司主要开发 GenAI 的策略 (60%) 是自己制作或大幅定制其模型。在金融服务和医疗保健领域,47% 的公司也在这样做。
平衡领域专业知识与人工智能技术
在 Clearwater Analytics,我们与全球金融机构合作,严格构建提示以确保它们理解查询的细微上下文。对于试图在金融、技术或能源等行业中使用复杂用例的公司而言,专业的提示分析师在这个阶段非常宝贵。这些分析师会评估模型的响应并改进提示,以确保它们产生正确的结果。人工监督在部署人工智能工具中仍然发挥着至关重要的作用。
我们已经为客户解决了两个或三个强大的案例,使用 GenAI。但是,我们认识到这是一个持续的过程。公司必须不断为其运营和客户构建更多用例,才能充分从 GenAI 代理中提取价值。在我们早期使用多代理工作流程的实验中,代理速度缓慢且性能低下,但我们不断对其进行迭代。我们发现,范围越广,这些代理就越成问题。
小型语言模型 (SLM) 的优势
如果你缩小模型的范围,它们在回答特定问题时就会变得更具响应性和能力。例如,如果我正在构建投资管理 GenAI 工作流程或客户用例,我不需要大型语言模型训练内容的 90%。我需要更窄的代理,这些代理深入了解与投资经理相关的领域。我需要一位在金融服务领域拥有专业知识的人工智能专业人士来实现这一点。小型语言模型 (SLM) 将激增的最大原因是其可负担性和资源节约。
高度调整的 LLMs 需要数十亿个参数,规模如此之大,以至于互联网上的数据都用完了。令人惊讶,对吧?训练这些 LLMs 需要大量的时间和大量的能源消耗,正如微软重启臭名昭著的三里岛核电站以及英伟达及其 GPU 的市场价值飙升所证明的那样。大多数公司无法承担此类模型所需的巨额基础设施投资。这就是为什么风险投资家正在资助 SLM,例如 Arcee 最近的 2400 万美元 A 轮融资。
集成合成数据和精选数据用于 SLM
即使 SLM 的训练数据少得多,提供商仍在为此而苦苦挣扎,因为模型的好坏取决于其底层数据集。因此,提供商花费大量时间来确定使用哪些数据集进行训练。然而,初创公司正在介入,创建经过精细调整的合成数据集,公司可以使用这些数据集以精确的方式为其独特的需求训练模型。
一系列公司正在开发 GenAI 堆栈中每一层的工具,以提高其效率和性能。这进一步支持了这样一个观点,即组织应该保持灵活,不要过度依赖任何特定语言模型提供商,无论是 ChatGPT、Claude 还是 Anthropic。每个模型提供商都会独立发展,因此必须确保您的基础设施允许根据需要轻松交换模型。
保持 GenAI 采用的灵活性
现在是组织拥抱生成式人工智能热潮的时候了。通过积极参与这项变革性技术,同时警惕潜在的陷阱,公司可以有效地应对人工智能采用的复杂性。
从小处着手,试点用例,并培养迭代和学习的文化——最大限度地发挥 GenAI 潜力的旅程才刚刚开始,并且正在我们眼前展开。