如何使用Kubernetes合理调整GPU和CPU资源以训练和推理AI模型​

译者 | 李睿审校 | 重楼如今,人工智能服务的迅速崛起创造了对计算资源的巨大需求,而如何有效管理这些资源成为一项关键挑战。 虽然使用Kubernetes运行人工智能工作负载已经取得了长足的进步,但基于动态需求优化调度仍然是一个亟待改进的领域。 在全球范围内,许多组织面临与GPU集群的成本和可用性相关的限制,并且通常依赖于这些计算集群来进行推理工作负载和持续的模型训练和微调。

译者 | 李睿

审校 | 重楼

如今,人工智能服务的迅速崛起创造了对计算资源的巨大需求,而如何有效管理这些资源成为一项关键挑战。虽然使用Kubernetes运行人工智能工作负载已经取得了长足的进步,但基于动态需求优化调度仍然是一个亟待改进的领域。在全球范围内,许多组织面临与GPU集群的成本和可用性相关的限制,并且通常依赖于这些计算集群来进行推理工作负载和持续的模型训练和微调。

如何使用Kubernetes合理调整GPU和CPU资源以训练和推理AI模型​

Kubernetes中的人工智能模型训练和模型推理

与推理相比,训练通常需要更多的计算能力。另一方面,使用推理的频率远高于训练,这是因为它被用于在许多应用程序中反复进行预测。本文将探索如何利用Kubernetes的先进功能,通过根据需要动态高效地对工作负载进行优先级排序来优化资源分配。

图1展示了训练与推理的过程。对于人工智能模型的训练,工作负载运行的频率可能较低,但需要更多的计算资源,因为实际上是在“教”它如何响应新数据。一旦经过训练,就会部署人工智能模型,并经常在GPU计算实例上运行,以提供低延迟的最佳结果。因此,推理将更频繁地运行,但强度不会那么大。与此同时,开发人员可能需要重新训练模型以容纳新数据,甚至尝试使用其他需要在部署前进行训练的模型。

图1 人工智能模型训练vs. 人工智能模型推理图1 人工智能模型训练vs. 人工智能模型推理

人工智能工作负载与高性能计算(HPC)工作负载类似,尤其是在训练方面。Kubernetes并不是为HPC设计的,但是由于Kubernetes是开源的,并且很大程度上是由社区推动的,因此在这个领域出现了快速的创新。而对优化的需求推动了KubeFlow和Kueue等工具的开发。

Kubernetes的人工智能工作负载

KubeFlow使用管道将数据科学中的步骤简化为逻辑操作块,并提供了许多可以插入这些步骤的库,从而帮助开发人员快速上手并顺利运行。

Kueue提供了多种资源“风格”,使其能够根据当时可用的硬件配置定制工作负载,并相应地调度相应的工作负载(当然,其功能远不止于此)。社区在这些工具及其他工具方面出色地解决了扩展、效率、分发和调度等问题。

以下是一个示例,展示了如何使用Kubernetes在支持远程直接内存访问RDMA (RoCEv2)的GPU集群上调度和优先考虑训练和推理任务。创建一些示例代码来演示这个概念。注:在代码中,使用了虚构的网站gpuconfig.com表示GPU制造商。此外,<gpu name>是希望指定的特定GPU的占位符。

复制
Shell 
 apiVersion: scheduling.k8s.io/v1

 kind: PriorityClass

 metadata:

 name: high-priority-<gpu name>

 value: 1000000

 globalDefault: false

 description: "This priority class should be used for high priority <GPU NAME> GPU jobs only."

 ---

 apiVersion: scheduling.k8s.io/v1

 kind: PriorityClass

 metadata:

 name: medium-priority-<gpu name>

 value: 100000

 globalDefault: false

 description: "This priority class should be used for medium priority <GPU NAME> GPU jobs."

 ---

 apiVersion: v1

 kind: Pod

 metadata:

 name: high-priority-gpu-job

 spec:

 priorityClassName: high-priority-<gpu name>

 containers:

 - name: gpu-container

 image: gpu/<gpu image>

 command: [" <gpu vendor>-smi"]

 resources:

 limits:

 gpuconfig.com/gpu: 1

 nodeSelector:

 gpu-type: <gpu name>

 rdma: "true"

---

 apiVersion: v1

 kind: Pod

 metadata:

 name: medium-priority-gpu-job

 spec:

 priorityClassName: medium-priority-<gpu name>

 containers:

 - name: gpu-container

 image: gpu/<gpu image>

 command: [" <gpu vendor>-smi"]

 resources:

 limits:

 gpuconfig.com/gpu: 1

 nodeSelector:

 gpu-type: <gpu name>

 rdma: "true"

这个Kubernetes配置演示了如何使用RDMA主干网对GPU节点上的作业进行优先级排序。以下分解其中的关键组件:

1. PriorityClasses:为GPU的任务定义了两个优先级类:

  • high-priority-<gpu name>:用于需要立即执行的关键任务。
  • medium-priority-<gpu name>:用于重要但必要时可以等待的任务。

2. Pod规范:创建了两个示例Pod来展示如何使用这些优先级类:

  • high-priority-gpu-job:使用high-priority-<gpu name>类。
  • medium-priority-gpu-job:使用medium-priority-<gpu name>类。

3.节点选择:两个pod都使用nodeSelector来确保它们被调度到具有RDMA的特定GPU节点上。

复制
Shell 
 nodeSelector:

 gpu-type: <gpu name>

 rdma: "true"

4.资源请求:每个pod请求一个GPU:

复制
Shell 
 resources:

 limits:

 gpuconfig.com/gpu: 1

Kubernetes使用优先级类别来决定Pod的调度顺序,以及在系统资源紧张时决定哪些Pod应被优先移除。以下是一个使用高优先级类别创建CronJob的示例:

复制
Shell 
 apiVersion: batch/v1beta1

 kind: CronJob

 metadata:

 name: high-priority-ml-training

 spec:

 schedule: "0 2 * * *"

 jobTemplate:

 spec:

 template:

 metadata:

 name: ml-training-job

 spec:

 priorityClassName: high-priority-<gpu name>

 containers:

 - name: ml-training

 image: your-ml-image:latest

 resources:

 limits:

 gpuconfig.com/gpu: 2

 restartPolicy: OnFailure

 nodeSelector:

 gpu-type: <gpu name>

 rdma: "true"

Kubernetes中的GPU资源管理

以下是Kubernetes中GPU资源管理的一些示例。

复制
Shell 
 

 apiVersion: v1

 kind: ResourceQuota

 metadata:

 name: gpu-quota

 namespace: ml-workloads

 spec:

 hard:

 requests.gpuconfig.com/gpu: 8

 limits.gpuconfig.com/gpu: 8

 ---

 apiVersion: v1

 kind: LimitRange

 metadata:

 name: gpu-limits

 namespace: ml-workloads

 spec:

 limits:

 - default:

 gpuconfig.com/gpu: 1

 defaultRequest:

 gpuconfig.com/gpu: 1

 max:

 gpuconfig.com/gpu: 4

 min:

 gpuconfig.com/gpu: 1

 type: Container

 ---

 apiVersion: scheduling.k8s.io/v1

 kind: PriorityClass

 metadata:

 name: gpu-burst

 value: 1000000

 globalDefault: false

 description: "This priority class allows for burst GPU usage, but may be preempted."

 ---

 apiVersion: v1

 kind: Pod

 metadata:

 name: gpu-burst-job

 namespace: ml-workloads

 spec:

 priorityClassName: gpu-burst

 containers:

 - name: gpu-job

 image: gpu/<gpu image>

 command: [" <gpu vendor>-smi"]

 resources:

 limits:

 gpuconfig.com/gpu: 2

 nodeSelector:

 gpu-type: <gpu name>

在过去,了解硬件的当前状态以确定工作负载的优先级可能是一项挑战,但得益于开源工具,现在已经有了解决方案。为了监控GPU利用率,采用了诸如Prometheus和Grafana等工具。以下是一个用于抓取GPU指标的Prometheus配置示例:

复制
Shell 
 global:

 scrape_interval: 15s

 

 scrape_configs:

 - job_name: 'gpu_gpu_exporter'

 static_configs:

 - targets: ['localhost:9835']

以下是一个简单的Python脚本,使用它来根据利用率指标优化GPU分配:

复制
Python 
 import kubernetes

 from prometheus_api_client import PrometheusConnect

 

 def get_gpu_utilization(prometheus_url, pod_name):

 prom = PrometheusConnect(url=prometheus_url, disable_ssl=True)

 query = f'gpu_gpu_utilization{{pod="{pod_name}"}}'

 result = prom.custom_query(query)

 return float(result[0]['value'][1]) if result else 0

 

  def optimize_gpu_allocation():

 kubernetes.config.load_kube_config()

 v1 = kubernetes.client.CoreV1Api()

 

 pods = v1.list_pod_for_all_namespaces(label_selector='gpu=true').items

 for pod in pods:

 utilization = get_gpu_utilization('http://prometheus:9090', pod.metadata.name)

 if utilization < 30: # If GPU utilization is less than 30%

 # Reduce GPU allocation

 patch = {

 "spec": {

 "containers": [{

 "name": pod.spec.containers[0].name,

 "resources": {

 "limits": {

 "gpuconfig.com/gpu": "1"

 }

 }

 }]

 }

 }

 v1.patch_namespaced_pod(name=pod.metadata.name, namespace=pod.metadata.namespace, body=patch)

 print(f"Reduced GPU allocation for pod {pod.metadata.name}")



 if __name__ == "__main__":

 optimize_gpu_allocation()

该脚本用于检查Pod的GPU利用率,并在利用率较低时减少资源分配。该脚本作为优化资源使用的一项功能运行。

利用Kubernetes管理GPU和CPU资源

因此,利用Kubernetes和OCI Kubernetes引擎(OKE)在人工智能模型的训练和推理工作负载中动态管理GPU和CPU资源。具体来说,专注于利用RDMA(RoCEv2)功能调整GPU分配的大小。开发人员开发了Kubernetes配置、Helm图,包括自定义优先级类、节点选择器和资源配额,以确保高优先级和中优先级人工智能任务的最佳调度和资源优先级。

通过利用Kubernetes的灵活性和OKE在Oracle Cloud Infrastructure(OCI)上的管理能力,平衡了训练的繁重计算需求和推理的较轻计算需求。这确保了资源的动态分配,减少了资源浪费,同时保持了关键任务的高性能。此外,还集成了Prometheus等监控工具以跟踪GPU利用率,并使用Python脚本自动调整分配。这种自动化有助于优化性能,同时管理成本和可用性。

结语

在这里概述的解决方案普遍适用于使用Kubernetes进行AI/ML工作负载的云平台和内部部署平台。而无论是硬件还是任何其他计算平台,使用Kubernetes进行动态调度和资源管理的关键原则都是相同的。Kubernetes允许组织有效地对工作负载进行优先级排序,优化他们对任何可用硬件资源的使用。通过采用相同的方法,组织可以微调其基础设施,减少瓶颈,降低资源闲置率,从而实现更高效、更具成本效益的运营。

原文标题:Right-Sizing GPU and CPU Resources For Training and Inferencing Using Kubernetes,作者:Sanjay Basu,Victor Agreda

相关资讯

谷歌云更新 Kubernetes 引擎,可支持万亿参数的人工智能模型

生成式人工智能模型越来越大,参数已多达 2 万亿个,大型语言模型对计算和存储的需求也在增加。 谷歌云(Google Cloud)今天宣布升级旗下  Kubernetes 引擎的容量,以应对更大规模的模型,Kubernetes . 引擎的容量将从目前支持 15000 个节点集群升级到支持 65000 个节点集群。

一文读懂为什么 Kubernetes 中需要 DRA (动态资源分配)机制

在现代云原生架构中,Kubernetes 已经成为企业动态资源调度的核心技术。 随着业务需求的复杂性和多样性日益增加,如何高效地在 Kubernetes 集群中分配和调整资源,成为提升系统弹性和利用率的关键课题。 动态资源调度通过智能化地分配 CPU、内存、GPU 等关键资源,不仅能够满足不同负载的性能需求,还能降低资源浪费,提高基础设施的投资回报率。

OpenAI的停机事件教会我们要构建更具弹性的系统

译者 | 李睿审校 | 重楼2024年12月11日, OpenAI公司提供的服务由于新部署的遥测服务出现问题而遭遇重大停机。 此次事件影响了API、ChatGPT和Sora服务,导致持续数小时的服务中断。 作为一家致力于提供准确高效的人工智能解决方案的供应商,OpenAI公司为此发布一份详细的事后分析报告,公开地讨论了出现问题的原因,以及他们如何计划防止在未来发生类似事件。