生成式 AI 正在改变人们与计算机交互的方式,为各行各业带来前所未有的便利与效率。其快捷迭代的节奏也在吸引着全世界的关注。
为建立大模型才智,算法、算力和数据是三个重要的方向。此前,人们对于算法和芯片算力关注度甚高,但对于很多企业来说,如何利用好数据同样是建立生成式 AI 利用的重要挑战。
近日,亚马逊云科技在「无数据不模型 —— 生成式 AI 时代的数据基座」媒体沟通会上,探讨了数据在生成式 AI 时代的关键作用。
「企业必要的是懂交易、懂用户的生成式 AI 利用,而打造这样的利用必要从数据做起,」亚马逊云科技大中华区产品部总经理陈晓建表示。「亚马逊云科技建立数据基座的三大核心才智涵盖从本原模型训练到生成式 AI 利用建立的重要场景,可以帮助企业轻快应对海量多模态数据,提升本原模型才智。亚马逊云科技正在帮助各个行业、各种规模的企业打造强健的数据基座,在确保用户交易和数据安全的前提下,将数据的独特价值赋予本原模型和生成式 AI 利用,加速企业交易增长。」
亚马逊云科技多年来持续引领数据本原设施的建立,在生成式 AI 时代围绕数据的三大核心才智,即模型微调和预训练所需的数据处理才智、利用专有数据与模型快捷结合以产生独特价值的才智,以及灵验处理新数据以助推生成式 AI 利用持续快捷发展的才智,提出了一系列先进的对象。
面向核心的数据处理对象
在数据保存方面,扩展性和响应速度是关键。
Amazon Simple Storage Service(Amazon S3)对象保存几乎是云上扩展性的代名词,它支持广泛的数据协议,可以轻快应对各种数据类型,还支持智能分层以降低训练成本。专门建立的文件保存服务 Amazon FSx for Lustre 则可以提供亚毫秒延迟和数百万 IOPS 的吞吐机能,可以进一步加快模型优化的速度。
在实践中,LG AI Research 使用 Amazon FSx for Lustre 将数据分发到实例中来加速模型训练,开发了自己的本原模型 EXAONE,通过减少本原设施管理和提高 GPU 扩展效率,降低了约 35% 的成本。
企业用户面临着繁重的数据清洗加工任务,Amazon EMR Serverless 和 Amazon Glue 可以帮助企业轻快完成数据清理、去重、乃至分词的操作,让企业专注于生成式 AI 交易创新。
其中,Amazon EMR serverless 采用无服务器架构,帮助企业运行任何规模的分析工作负载,其自动扩展功能可在几秒钟内调整资源大小,以满足不断变化的数据量和处理要求。Amazon Glue 是一个简单可扩展的无服务器数据集成服务,可以轻快快捷地完成微调或预训练模型的数据准备工作。
在数据治理方面,企业难以在多个账户和区域中查找数据,也缺乏灵验的数据治理对象。Amazon DataZone 让企业可以跨组织边界大规模地发现、共享和管理数据,不但可以为多源多模态数据进行灵验编目和治理,而且还提供简单易用的统一数据管理平台和对象,从而为用户解锁所有数据的潜能。
让企业专有数据释放更大价值
生成式 AI 本原模型的局限性之一在于无法及时拥有企业专有数据,通过技术手段加速数据与模型的结合成为企业数据基座的第二项关键才智。
生成式 AI 时代,我们必要的数据不止是原始数据,还必要转化后向量形式的数据。把向量数据和原始数据进行统一保存或许会是最灵验的方法。这意味着原始数据不必要进行迁移,才智在整合后会有更快、更便捷的体验,使用门槛也更低。亚马逊云科技的保存本原设施支持了向量搜刮才智。
检索增强生成(Retrieval-Augmented Generation,RAG)技术被普遍认为是实现数据与模型结合的主要途径之一,它通过将数据转换为向量并保存到向量数据库中,从而将语义的关联性转化为向量间的数学距离问题,以实现内容的关联性计算。
现代利用程序需精准理解用户需求并正确关联产品或内容,这一需求广泛存在于搜刮、评论、购物车及产品推荐等交互框架中,这些框架又依赖于功能各异的数据库,这使得数据库成为实施 RAG 技术的理想平台。
亚马逊云科技将向量搜刮的支持功能加入到主流的数据服务中,通过将数据和向量保存在一起来提升数据查询机能。这可以让企业轻快利用 RAG 技术将专有数据提供给本原模型,从而释放更大价值。
此外,亚马逊云科技还为图数据库 Amazon Neptune 推出了分析数据库引擎,以结合图数据库与大模型的优势,从而可以快捷从图形数据中获取洞察,并进行更快的向量搜刮。
灵验处理生成式 AI 利用的新数据
在生成式 AI 利用上,企业如何利用数据?目前有三类持续利用数据的方式,第一类是检索增强(RAG),把企业已有的数据和文档,与大模型相结合,提供信息检索辅助化的才智;第二类是微调,即通过提示对象,让大语言模型更了解实际利用情况;第三类持续预训练的门槛更高 —— 这必要用户拥有大量的交易数据,同时把实时产生的数据持续用于大模型训练。
这三种才智在亚马逊云科技的 Bedrock 上都已可以实现。
对生成式 AI 利用程序而言,本原模型频繁挪用将会导致成本的增加和响应的延迟,因此如何处理生成式 AI 利用程序新生成的数据,提升模型挪用效率成为企业数据基座的第三项关键才智。
Amazon Memory DB 内存数据库通过缓存之前问答生成的新数据,实现对类似问题的快捷响应和准确回答,同时灵验降低本原模型的挪用频率。Amazon Memory DB 可以保存数百万个向量,只必要几毫秒的响应时间,可以以 99% 的召回率实现每秒百万次的查询机能。
此外,生成式 AI 利用程序必要快捷占领市场。亚马逊云科技通过提供无服务器数据库服务和 Amazon OpenSearch Serverless 用于向量搜刮,最大限度为企业减少运维负担和成本,消除机能瓶颈,使企业可以专注于生成式 AI 交易创新。
从亚马逊云科技对于数据处理的看重,我们可以看出,在生成式 AI 技术走向落地的现在,企业和开发者正在面临新的挑战。对于数字本原设施的提供者而言,这将带来新的机遇。
「生成式 AI 发展到今天,用户所关注的不止是大模型,数据应该是运行的保证,而且是差异化的关键,」陈晓建表示。