diff --git a/content/zh-cn/docs/tasks/debug/debug-cluster/_index.md b/content/zh-cn/docs/tasks/debug/debug-cluster/_index.md index bf0f550c80..604174f541 100644 --- a/content/zh-cn/docs/tasks/debug/debug-cluster/_index.md +++ b/content/zh-cn/docs/tasks/debug/debug-cluster/_index.md @@ -64,7 +64,7 @@ Sometimes when debugging it can be useful to look at the status of a node -- for --> ### 示例:调试关闭/无法访问的节点 {#example-debugging-a-down-unreachable-node} -有时在调试时查看节点的状态很有用——例如,因为你注意到在节点上运行的 Pod 的奇怪行为, +有时在调试时查看节点的状态很有用 —— 例如,因为你注意到在节点上运行的 Pod 的奇怪行为, 或者找出为什么 Pod 不会调度到节点上。与 Pod 一样,你可以使用 `kubectl describe node` 和 `kubectl get node -o yaml` 来检索有关节点的详细信息。 例如,如果节点关闭(与网络断开连接,或者 kubelet 进程挂起并且不会重新启动等), @@ -260,28 +260,30 @@ of the relevant log files. On systemd-based systems, you may need to use `journ ### 控制平面节点 {#control-plane-nodes} - * `/var/log/kube-apiserver.log` —— API 服务器 API - * `/var/log/kube-scheduler.log` —— 调度器,负责制定调度决策 - * `/var/log/kube-controller-manager.log` —— 运行大多数 Kubernetes - 内置{{}}的组件,除了调度(kube-scheduler 处理调度)。 +* `/var/log/kube-apiserver.log` —— API 服务器,负责提供 API 服务 +* `/var/log/kube-scheduler.log` —— 调度器,负责制定调度决策 +* `/var/log/kube-controller-manager.log` —— 运行大多数 Kubernetes + 内置{{}}的组件,除了调度(kube-scheduler 处理调度)。 ### 工作节点 {#worker-nodes} - * `/var/log/kubelet.log` —— 来自 `kubelet` 的日志,负责在节点运行容器 - * `/var/log/kube-proxy.log` —— 来自 `kube-proxy` 的日志,负责将流量转发到服务端点 +* `/var/log/kubelet.log` —— 来自 `kubelet` 的日志,负责在节点运行容器 +* `/var/log/kube-proxy.log` —— 来自 `kube-proxy` 的日志,负责将流量转发到服务端点 -### 造成原因 {#contributing-causes} +### 故障原因 {#contributing-causes} - - 虚拟机关闭 - - 集群内或集群与用户之间的网络分区 - - Kubernetes 软件崩溃 - - 持久存储(例如 GCE PD 或 AWS EBS 卷)的数据丢失或不可用 - - 操作员错误,例如配置错误的 Kubernetes 软件或应用程序软件 +- 虚拟机关闭 +- 集群内或集群与用户之间的网络分区 +- Kubernetes 软件崩溃 +- 持久存储(例如 GCE PD 或 AWS EBS 卷)的数据丢失或不可用 +- 操作员错误,例如配置错误的 Kubernetes 软件或应用程序软件 ### 具体情况 {#specific-scenarios} @@ -334,16 +336,17 @@ This is an incomplete list of things that could go wrong, and how to adjust your - kubelet 将不能访问 API 服务器,但是能够继续运行之前的 Pod 和提供相同的服务代理 - 在 API 服务器重启之前,需要手动恢复或者重建 API 服务器的状态 - Kubernetes 服务组件(节点控制器、副本控制器管理器、调度器等)所在的 VM 关机或者崩溃 - 当前,这些控制器是和 API 服务器在一起运行的,它们不可用的现象是与 API 服务器类似的 @@ -357,18 +360,18 @@ This is an incomplete list of things that could go wrong, and how to adjust your - 分区 A 认为分区 B 中所有的节点都已宕机;分区 B 认为 API 服务器宕机 (假定主控节点所在的 VM 位于分区 A 内)。 - kubelet 软件故障 - 结果 @@ -380,11 +383,11 @@ This is an incomplete list of things that could go wrong, and how to adjust your - 结果 - 丢失 Pod 或服务等等 - 丢失 API 服务器的后端存储 - - 用户无法读取API + - 用户无法读取 API - 等等 -- 措施:定期对 API 服务器的 PDs/EBS 卷执行快照操作 +- 措施:定期对 API 服务器的 PD 或 EBS 卷执行快照操作 - 缓解:API 服务器后端存储丢失 - 缓解:一些操作错误的场景 - 缓解:一些 Kubernetes 软件本身故障的场景 @@ -444,16 +447,19 @@ This is an incomplete list of things that could go wrong, and how to adjust your ## {{% heading "whatsnext" %}} -* 了解[资源指标管道](resource-metrics-pipeline)中可用的指标 -* 发现用于[监控资源使用](resource-usage-monitoring)的其他工具 -* 使用节点问题检测器[监控节点健康](monitor-node-health) -* 使用 `crictl` 来[调试 Kubernetes 节点](crictl) -* 获取更多关于 [Kubernetes 审计](audit)的信息 -* 使用 `telepresence` [本地开发和调试服务](local-debugging) \ No newline at end of file +* 了解[资源指标管道](/zh-cn/docs/tasks/debug/debug-cluster/resource-metrics-pipeline/)中可用的指标 +* 发现用于[监控资源使用](/zh-cn/docs/tasks/debug/debug-cluster/resource-usage-monitoring/)的其他工具 +* 使用节点问题检测器[监控节点健康](/zh-cn/docs/tasks/debug/debug-cluster/monitor-node-health/) +* 使用 `crictl` 来[调试 Kubernetes 节点](/zh-cn/docs/tasks/debug/debug-cluster/crictl/) +* 获取更多关于 [Kubernetes 审计](/zh-cn/docs/tasks/debug/debug-cluster/audit/)的信息 +* 使用 `telepresence` [本地开发和调试服务](/zh-cn/docs/tasks/debug/debug-cluster/local-debugging/) \ No newline at end of file