From b174bfed02ba28da91e5a39ba1e0334d1ecb4c1a Mon Sep 17 00:00:00 2001 From: yanrongshi Date: Fri, 9 Sep 2022 23:22:21 +0800 Subject: [PATCH] fix some layout --- .../docs/tasks/manage-gpus/scheduling-gpus.md | 58 +++++++++++-------- 1 file changed, 33 insertions(+), 25 deletions(-) diff --git a/content/zh-cn/docs/tasks/manage-gpus/scheduling-gpus.md b/content/zh-cn/docs/tasks/manage-gpus/scheduling-gpus.md index a537d8ee2d..57a1228d72 100644 --- a/content/zh-cn/docs/tasks/manage-gpus/scheduling-gpus.md +++ b/content/zh-cn/docs/tasks/manage-gpus/scheduling-gpus.md @@ -1,6 +1,6 @@ --- content_type: concept -title: 调度 GPUs +title: 调度 GPU description: 配置和调度 GPU 成一类资源以供集群中节点使用。 --- -- GPUs 只能设置在 `limits` 部分,这意味着: +- GPU 只能设置在 `limits` 部分,这意味着: * 你可以指定 GPU 的 `limits` 而不指定其 `requests`,Kubernetes 将使用限制 值作为默认的请求值; * 你可以同时指定 `limits` 和 `requests`,不过这两个值必须相等。 @@ -87,6 +87,8 @@ when using GPUs: +这里是一个例子: + ```yaml apiVersion: v1 kind: Pod @@ -111,27 +113,20 @@ has the following requirements: --> ### 部署 AMD GPU 设备插件 {#deploying-amd-gpu-device-plugin} -[官方的 AMD GPU 设备插件](https://github.com/RadeonOpenCompute/k8s-device-plugin) 有以下要求: +[官方的 AMD GPU 设备插件](https://github.com/RadeonOpenCompute/k8s-device-plugin)有以下要求: - Kubernetes 节点必须预先安装 AMD GPU 的 Linux 驱动。 如果你的集群已经启动并且满足上述要求的话,可以这样部署 AMD 设备插件: ```shell -kubectl create -f https://raw.githubusercontent.com/RadeonOpenCompute/k8s-device-plugin/r1.10/k8s-ds-amdgpu-dp.yaml +kubectl create -f https://raw.githubusercontent.com/RadeonOpenCompute/k8s-device-plugin/v1.10/k8s-ds-amdgpu-dp.yaml ``` ### 部署 NVIDIA GPU 设备插件 {#deploying-nvidia-gpu-device-plugin} -对于 NVIDIA GPUs,目前存在两种设备插件的实现: +对于 NVIDIA GPU,目前存在两种设备插件的实现: - Kubernetes 的节点必须预先安装了 NVIDIA 驱动 - Kubernetes 的节点必须预先安装 [nvidia-docker 2.0](https://github.com/NVIDIA/nvidia-docker) -- Docker 的[默认运行时](https://github.com/NVIDIA/k8s-device-plugin#preparing-your-gpu-nodes)必须设置为 nvidia-container-runtime,而不是 runc -- NVIDIA 驱动版本 ~= 384.81 +- Kubelet 的容器运行时必须使用 Docker +- Docker 的[默认运行时](https://github.com/NVIDIA/k8s-device-plugin#preparing-your-gpu-nodes)必须设置为 + `nvidia-container-runtime`,而不是 `runc`。 +- NVIDIA 驱动程序的版本必须匹配 ~= 361.93 如果你的集群已经启动并且满足上述要求的话,可以这样部署 NVIDIA 设备插件: ```shell kubectl create -f https://raw.githubusercontent.com/NVIDIA/k8s-device-plugin/1.0.0-beta4/nvidia-device-plugin.yml ``` -请到 [NVIDIA/k8s-device-plugin](https://github.com/NVIDIA/k8s-device-plugin)项目报告有关此设备插件的问题。 + + +你可以通过在 [NVIDIA/k8s-device-plugin](https://github.com/NVIDIA/k8s-device-plugin) 中记录问题来报告此第三方设备插件的问题。 你可以使用下面的命令来安装 NVIDIA 驱动以及设备插件: ``` @@ -209,13 +215,15 @@ kubectl create -f https://raw.githubusercontent.com/kubernetes/kubernetes/releas ``` -请到 [GoogleCloudPlatform/container-engine-accelerators](https://github.com/GoogleCloudPlatform/container-engine-accelerators) 报告有关此设备插件以及安装方法的问题。 +你可以通过在 [GoogleCloudPlatform/container-engine-accelerators](https://github.com/GoogleCloudPlatform/container-engine-accelerators) +中记录问题来报告使用或部署此第三方设备插件的问题。 -关于如何在 GKE 上使用 NVIDIA GPUs,Google 也提供自己的[指令](https://cloud.google.com/kubernetes-engine/docs/how-to/gpus)。 +关于如何在 GKE 上使用 NVIDIA GPU,Google 也提供自己的[指令](https://cloud.google.com/kubernetes-engine/docs/how-to/gpus)。 -如果你在使用 AMD GPUs,你可以部署 +如果你在使用 AMD GPU,你可以部署 [Node Labeller](https://github.com/RadeonOpenCompute/k8s-device-plugin/tree/master/cmd/k8s-node-labeller), 它是一个 {{< glossary_tooltip text="控制器" term_id="controller" >}}, -会自动给节点打上 GPU 属性标签。目前支持的属性: +会自动给节点打上 GPU 设备属性标签。目前支持的属性: