AI/ML存储环境架构的三个技巧

人工智能彻底改变了我们周围的世界,其革命性影响源于它分析大量数据、从中学习并提供见解和自动化能力。 这些数据通常分布在数据仓库、数据湖、云和本地数据中心中,确保关键信息能够被访问和分析,以适应当今的人工智能计划。 人工智能激增的影响之一是传统商业模式的颠覆。

人工智能彻底改变了我们周围的世界,其革命性影响源于它分析大量数据、从中学习并提供见解和自动化能力。这些数据通常分布在数据仓库、数据湖、云和本地数据中心中,确保关键信息能够被访问和分析,以适应当今的人工智能计划。

AI/ML存储环境架构的三个技巧

人工智能激增的影响之一是传统商业模式的颠覆。组织越来越依赖人工智能来增强客户体验、简化运营和推动创新。为了最大限度地发挥人工智能的优势,采用先进的存储架构至关重要。NVMe over Fabrics(NVMe-oF)提供AI工作负载所需的低延迟、高吞吐量访问,加速性能并减少潜在瓶颈。实施分类存储可以实现更大的灵活性,并能够独立扩展存储和计算,以最大限度地提高资源利用率。未能实施最合适的架构并将人工智能集成到其模型中的企业有可能在数据驱动的世界中落后。

部署机器学习模型时的注意事项

组织一直面临着尽快从数据中获取尽可能多价值的压力,但他们必须以不妨碍正常业务运营的成本效益方式这样做。因此,依赖本地或云端的存储不再那么理想。

组织需要构建高性能、灵活和可扩展的计算环境,以支持当今人工智能工作流程的实时处理需求。在这些用例中,高效的专用数据存储至关重要,组织应考虑数据量、速度、多样性和准确性。

组织现在能够在本地数据中心构建类似公有云的基础设施,使其具有云的灵活性和可扩展性,并具有私有基础设施的控制和成本效益。如果架构正确,这些环境可以提供更大的性价比,提供了一种更有效的方式来支持为人工智能应用程序准备的存储环境的高性能、高度可扩展的要求。事实上,对于在一定性能或成本限制范围内运营的组织来说,将AI/ML数据集从云端汇回本地数据中心可能是一个理想的选择。

为人工智能应用构建本地存储环境

组织可以构建强大的存储环境,具有公有云的灵活性和规模,但具有私有基础设施的可管理性和一致性。以下是构建本地存储环境时需要考虑的三件事,非常适合当今AI/ML驱动的世界的需求:

服务器选择:人工智能应用程序需要大量的计算资源来快速有效地处理和分析机器学习数据集,因此选择合适的服务器架构至关重要。然而,最重要的是能够在不造成系统瓶颈的情况下扩展GPU资源。

高性能存储网络:同样重要的是要包括高性能的存储网络,它不仅能够满足(并超过)GPU不断增长的性能需求,而且能够提供可扩展的容量和吞吐量,以满足学习模型数据集的大小和性能需求。利用直接路径技术的存储解决方案可以实现GPU到存储的直接通信,从而绕过CPU来提高数据传输速度、减少延迟并提高利用率。

基于开放标准:最后,解决方案应该与硬件和协议无关,提供多种连接到服务器和存储到网络的方式。基础设施的互操作性将大大有助于为人工智能应用构建一个灵活的环境。

构建新架构

在本地构建类似公有云的基础设施可能会提供一个可靠的选择——为组织提供云的灵活性和可扩展性,同时提供私有基础设施的控制和成本效益。然而,重要的是,在做出正确的存储架构决策时,要考虑到人工智能的因素——提供人工智能应用程序以业务速度移动所需的计算能力和存储容量的正确组合。

确保适当资源分配和减少瓶颈的一种方法是采用存储分解。独立扩展存储允许GPU饱和,否则在使用超融合解决方案的许多AI/ML工作负载中可能会遇到挑战。这意味着可以在不影响性能的情况下有效地扩展存储。

相关资讯