亚马逊云科技 CEO Adam Selipsky 曾说过:迄今为止,没有一个生成式 AI 的应用不是在云上发生的。
最近一段时间,生成式 AI 技术快速发展,专用于新技术的数字基础设施,已经开始催生出新的应用。
在 10 月 24 日举行的 2023 亚马逊云科技生成式 AI 构建者大会上,人们围绕应用场景、工具和基础设施、数据基座、AI 原生应用构建和生成式 AI 服务等五方面,讨论了释放生成式 AI 潜力的新方式。
与此同时,我们也看到了生成式 AI 在不少行业的应用落地案例。
「生成式 AI 不仅仅是大模型。今天,当我们谈论生成式 AI 时,大多数人都在谈论基础模型,而整个生成式 AI 应用就像是浮在海面的冰山,」亚马逊云科技大中华区产品部总经理陈晓建说道。「露在海面的冰山一角就像是基础模型,而在冰川的底部,同样有大量的基础模型以外的服务来支撑,如加速芯片,数据库,数据分析,数据安全服务等等。」
亚马逊云科技提供了完整的端到端的生成式 AI 技术堆栈,从底层的加速层如加速芯片,存储优化,到中间层模型构建工具和服务,再到最上层的生成式 AI 相关应用,每一层都在针对客户的不同需求持续创新。
基于深度学习的人工智能技术至今已经发展超过十年。最近一段时间,随着数据容量的激增,技术的快速迭代,以及计算资源的发展,生成式 AI 技术获得了爆发。生成式 AI 的核心是利用基础模型进行创新驱动的。大语言模型包含大量参数,通过学习互联网规模的数据能够学习复杂的概念,因此获得了初步的通用化能力。
但更为重要的是,我们同样可以利用私有数据对基础模型进行微调,构建起执行特定领域任务的工具。
今年 4 月起,Amazon Bedrock 等生成式 AI 应用服务的推出,标志着亚马逊云科技将大模型引入云计算基础设施的努力正式开始。
亚马逊云科技希望从多个方面帮助开发者,共同构建生成式 AI 的普惠化:
首先,帮助所有规模的企业选择合适场景、应用业内领先生成式 AI 模型。其次,通过专门构建的生成式 AI 工具和计算基础设施,帮助快速搭建生成式 AI 应用。亚马逊云科技构建了强大的数据托管平台,让企业可以便捷、安全地使用私有化数据,实现差异化竞争优势。在完全基于云原生的业务基础上,亚马逊云科技构建了生成式 AI 的云原生架构。除了搭建生成式 AI 应用本身,用户同样可以使用多种开箱即用的技术来提升效率。针对生成式 AI 基础模型迭代速度快,优势各不相同的情况,亚马逊云科技推出了 Amazon Bedrock 和 Amazon SageMaker JumpStart 两项服务,让客户可以便捷地选择适合自身业务的模型。
陈晓建表示,Amazon Bedrock 是企业使用基础模型构建和扩展生成式 AI 应用程序最简便的方法。它提供了广泛的模型选择、数据隐私机制,能够自定义模型,同时也是无服务器化的应用,无需管理底层的基础设施。
在 9 月底,亚马逊云科技刚刚宣布 Amazon Bedrock 正式可用。目前很多来自于业界的头部大模型,都可以在 Amazon Bedrock 上找到,如 Jurassic、Claude 2、Command、Llama 2、Stable Diffusion 和 Amazon Titan。
在活动中,亚马逊云科技着重强调了生成式 AI 开发平台的安全性。Amazon Bedrock 在开发之初就考虑到了安全性和隐私保护,能够帮助客户保护敏感数据。首先,用户的任何数据都不会被用于训练任何原始大模型。其次,用户可以配置自己的私有环境,如虚拟网来执行自身的环境进行训练。Amazon Bedrock 同时符合 HIPAA(健康保险流通与责任法案)和 GDPR(欧盟《通用数据保护条例》)等合规标准。
除了 Amazon Bedrock,亚马逊云科技还提供了 Amazon SageMaker JumpStart,用户可以在其之上获得更多来自工业界和学术界的开源模型,Amazon SageMaker JumpStart 同时提供了深度的定制环境和评估等功能。
虽然基础模型通常已具备强大的自然语言能力,但在执行一些特定任务时,开发人员往往需要进行大量细致的调优工作。对此,Amazon Bedrock 提供了无需编写代码就可以实现的托管代理(Amazon Bedrock Agent)工具,让自动化的 Agent 帮助人们执行复杂的任务。在其之上,开发者只需点击几次鼠标就可以让 AI 自动分解和编排任务,通过 API 链接到相关的数据源,同时可以连接到后端的 Amazon Lambda 来执行任务。
在生成式 AI 应用构建的过程中,除了大模型本身,人们同样需要高性能、低成本的基础设施。亚马逊云科技提供 Amazon EC2 P4d 实例基于 A100 的 GPU,最新的 Amazon EC2 P5 实例基于 NVIDIA 的 H100 的 GPU,为训练和部署提供了很高的性能表现。和上一代实例相比,新的基础设施把训练时间缩短了 6 倍,成本降到了原来的 40%。
在推理方面,最新的 Amazon EC2 G5 实例基于 NVIDIA A10G 芯片,也实现了性价比的三倍提升。
亚马逊云科技也拥有多达十年的自研芯片经验。最近发布的 Amazon EC2 Inf2 实例基于最新的自研机器学习芯片 Amazon Inferentia2,其推理性价比同类 Amazon EC2 实例相比高出了 40%。面向 AI 训练的 Amazon Trn1 的实例则可以让训练成本节省 50%。
亚马逊云科技表示,越来越多的客户正在选择基于其自研芯片的服务承载生成式 AI 应用,如 Airbnb、OPPO、Sprinklr 和 Autodesk,这个范围还在不断扩大。
大模型应用需要强大的数据底座,使用亚马逊云科技的服务时,人们可以使用 Amazon RDS 或者 Amazon Aurora 来存储数据,Amazon RDS 是一个包含了多个关系型数据库的托管服务,既包含像开源的 MySQL,同时也包括商用数据库像 SQLServer 和 Oracle。Amazon Aurora 是亚马逊自研的云原生数据库,能够提供很好的性能、扩展性和安全性。
在云原生环境中,Amazon DynamoDB 可以让用户不用关心任何底层的容量和拓展,并获得毫秒级的响应时间。
亚马逊云科技在数据库产品中集成了向量数据库功能,此外,很多服务都是无服务器化的,人们无需担心数据库底层的维护、版本控制或许可授权的问题。
除了功能完备的基础设施和大模型工具,在活动中亚马逊云科技还谈到了开箱即用的生成式 AI 开发工具。
今年 6 月,Amazon CodeWhisperer 正式上线,作为 AI 编程辅助工具,它可以实时提供编程的代码建议,从根本上提升开发人员的生产力。根据亚马逊云科技的数据,使用 Amazon CodeWhisperer 的开发者可以提升 57% 整体效率,成功率提升 27%。
在 9 月底,亚马逊云科技提出了 Amazon CodeWhisperer 定制化能力。它可以基于企业内部的 API、数据库、最佳实践和架构模式,生成包括内部代码库的实时推荐。
亚马逊云科技表示,目前 Amazon CodeWhisperer 已帮助上千家中小企业实现了生成式 AI 的创新,已经有超过 10 万中国开发者使用了 Amazon CodeWhisperer。
在活动中,西门子集团、金山办公软件以及科思创中国作为亚马逊云科技中国区生成式 AI 创新的代表客户,也分享了各自的创新案例。
生成式 AI 的应用目前还处于初期阶段,除了提供技术能力,亚马逊云科技希望继续扩大与国内外公司的合作范围,构建生态体系。
「构建生成式 AI 应用是充满挑战的系统工程,除亚马逊本身的资源以外,我们同样需要构建强大的合作伙伴生态,共同解决生成式 AI 应用构建中的各种技术问题,加速应用落地,」陈晓建说道。