0

0

Linux Kubernetes 集群部署实战

冰川箭仙

冰川箭仙

发布时间:2026-02-18 12:08:01

|

240人浏览过

|

来源于php中文网

原创

快速验证 kubeadm init 失败是否因 cgroup 驱动不一致:先查 containerd 配置 containerd config dump | grep -a 5 'systemdcgroup' 是否为 true,再查 kubelet 实际驱动 ps aux | grep kubelet | grep -o 'cgroup-driver=[^ ]*',两者不一致即为根因。

linux kubernetes 集群部署实战

怎么快速验证 kubeadm init 失败是不是因为 cgroup 驱动不一致

绝大多数初始化卡在 [wait-control-plane] Waiting for the kubelet to boot up the control plane 或直接报错 failed to run Kubelet: failed to create kubelet: misconfiguration: cgroup driver: "systemd" is not supported,本质是容器运行时(如 containerd)和 kubelet 使用的 cgroup 驱动不匹配。

实操建议:

  • 查 containerd 当前配置:containerd config dump | grep -A 5 'SystemdCgroup',看是否为 true
  • 查 kubelet 实际使用的驱动:ps aux | grep kubelet | grep -o 'cgroup-driver=[^ ]*',常见值是 cgroup-driver=systemdcgroup-driver=cgroupfs
  • 若不一致,改 containerd:编辑 /etc/containerd/config.toml,确保 [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options] 下有 SystemdCgroup = true(对应 kubelet 的 systemd),然后 sudo systemctl restart containerd
  • 别手动改 kubelet 参数去迁就 containerd —— 容器运行时驱动应由 runtime 自身决定,kubelet 要对齐它

为什么 kubeadm join 总提示 x509: certificate signed by unknown authority

这不是证书过期,而是 node 上的 kubelet 尝试连接 master 的 API Server 时,无法验证其 TLS 证书链 —— 根因通常是 control-plane 节点没把 CA 证书正确分发给 worker,或 kubeadm join 命令里漏了 --certificate-key(v1.15+ 默认需要)。

实操建议:

  • 在 control-plane 节点上,用 kubeadm token create --print-join-command 生成完整命令,别自己拼 kubeadm join ... --token ...
  • 如果 token 过期(默认 24h),重新生成:kubeadm token create --ttl 2h,再配 --certificate-key(需先 kubeadm init phase upload-certs --upload-certs
  • worker 节点执行前,确认 /etc/kubernetes/pki/ca.crt 存在且内容与 master 一致;不一致就手动同步(scp 或 base64 粘贴)
  • 别用 curl -k 绕过校验 —— 这会让 kubelet 启动失败,因为内部组件通信仍依赖合法证书

kubectl get nodes 显示 NotReady 但 pod 全是 Running,怎么办

Node 状态是 kubelet 上报的,NotReady 表示 kubelet 没能完成自检(比如网络插件没就绪、cni 配置缺失、disk pressure),但控制平面已调度完 pod,所以 kubectl get pods 看起来正常。

《跟老男孩学Linux运维-Web集群实战》
《跟老男孩学Linux运维-Web集群实战》

《跟老男孩学Linux运维-Web集群实战》

下载

实操建议:

  • 先查 kubelet 日志:journalctl -u kubelet -n 100 --no-pager | grep -i -E "(cni|network|ready|status)"
  • 检查 CNI 插件是否部署成功:ls /etc/cni/net.d/ 应有非空配置文件(如 10-flannel.conflist),且 crictl ps | grep cni 能看到对应容器
  • 确认 /var/lib/cni 目录权限是 root:root,非 root 用户写入会失败(尤其用 ansible 批量部署时容易 chown 错)
  • Flannel 场景下,检查 ip link show flannel.1 是否存在;Calico 则看 calico-node pod 的 READY 列是否为 1/1

集群跑了一阵后 kubectl apply 变慢甚至超时,etcd 成瓶颈怎么看

不是网络问题,也不是 API Server 崩溃,而是 etcd 写入延迟升高导致请求排队 —— 常见于未调优的单节点 etcd、磁盘 I/O 拥塞、或 key 数量过多(比如大量 job/horizontalpodautoscaler 对象没清理)。

实操建议:

  • 直连 etcd 查健康:ETCDCTL_API=3 etcdctl --endpoints https://127.0.0.1:2379 --cacert /etc/kubernetes/pki/etcd/ca.crt --cert /etc/kubernetes/pki/etcd/server.crt --key /etc/kubernetes/pki/etcd/server.key endpoint health
  • 看写入延迟:etcdctl --write-out=table endpoint status,重点关注 RTTIsLeader 列;RTT > 100ms 就危险
  • 检查碎片率:etcdctl --write-out=table endpoint status | grep -i 'db size\|fragment',>10% 就该 compact + defrag(先 etcdctl compact,再 etcdctl defrag
  • 别在生产集群用 etcdctl snapshot save 期间做高并发写入 —— 快照会阻塞写操作,加剧延迟

etcd 不是黑盒,它的延迟会直接传导到所有 kubectl 操作。哪怕只是加个 label,背后也是 etcd 的一次原子写。磁盘选 SATA 还是 NVMe,日志刷盘策略怎么设,这些细节比 YAML 写得漂不漂亮重要得多。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
python中print函数的用法
python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容,供大家免费下载体验。

192

2023.09.27

python print用法与作用
python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容,阅读专题下面的文章了解更多详细教程。

12

2026.02.03

curl_exec
curl_exec

curl_exec函数是PHP cURL函数列表中的一种,它的功能是执行一个cURL会话。给大家总结了一下php curl_exec函数的一些用法实例,这个函数应该在初始化一个cURL会话并且全部的选项都被设置后被调用。他的返回值成功时返回TRUE, 或者在失败时返回FALSE。

452

2023.06.14

linux常见下载安装工具
linux常见下载安装工具

linux常见下载安装工具有APT、YUM、DNF、Snapcraft、Flatpak、AppImage、Wget、Curl等。想了解更多linux常见下载安装工具相关内容,可以阅读本专题下面的文章。

181

2023.10.30

登录token无效
登录token无效

登录token无效解决方法:1、检查token的有效期限,如果token已经过期,需要重新获取一个新的token;2、检查token的签名,如果签名不正确,需要重新获取一个新的token;3、检查密钥的正确性,如果密钥不正确,需要重新获取一个新的token;4、使用HTTPS协议传输token,建议使用HTTPS协议进行传输 ;5、使用双因素认证,双因素认证可以提高账户的安全性。

6399

2023.09.14

登录token无效怎么办
登录token无效怎么办

登录token无效的解决办法有检查Token是否过期、检查Token是否正确、检查Token是否被篡改、检查Token是否与用户匹配、清除缓存或Cookie、检查网络连接和服务器状态、重新登录或请求新的Token、联系技术支持或开发人员等。本专题为大家提供token相关的文章、下载、课程内容,供大家免费下载体验。

835

2023.09.14

token怎么获取
token怎么获取

获取token值的方法:1、小程序调用“wx.login()”获取 临时登录凭证code,并回传到开发者服务器;2、开发者服务器以code换取,用户唯一标识openid和会话密钥“session_key”。想了解更详细的内容,可以阅读本专题下面的文章。

1085

2023.12.21

token什么意思
token什么意思

token是一种用于表示用户权限、记录交易信息、支付虚拟货币的数字货币。可以用来在特定的网络上进行交易,用来购买或出售特定的虚拟货币,也可以用来支付特定的服务费用。想了解更多token什么意思的相关内容可以访问本专题下面的文章。

1608

2024.03.01

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

561

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.3万人学习

Git 教程
Git 教程

共21课时 | 3.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号