0

0

Linux calico 的 typha 与高规模集群 Felix 负载分担实践

冷漠man

冷漠man

发布时间:2026-02-18 14:39:10

|

208人浏览过

|

来源于php中文网

原创

typha 在大规模集群中非开箱即用,因其默认无状态代理不感知 felix 连接数变化、不自动迁移连接或负载均衡,导致 cpu 倾斜、连接超时及节点启动慢;需启用 dns srv 发现、禁用静态 endpoint、配置 felix 使用 headless service 并调优重连与 tls 参数。

linux calico 的 typha 与高规模集群 felix 负载分担实践

为什么 Typha 在大规模集群里不是“开箱即用”就有效的

因为默认部署的 typha 实例不自动感知 Felix 连接数变化,也不会主动做连接迁移或负载重平衡。它只是个无状态代理,Felix 连接一旦建立,就长期绑定到某个 Typha 实例上——哪怕那个实例 CPU 已经跑满,其他 Typha 实例还空着。

常见错误现象:Felix 日志频繁出现 Failed to connect to Typha 或连接超时;typha Pod 的 CPU 持续 >90%,但其他副本几乎闲置;calico-node 启动变慢,尤其在节点扩容后。

  • 必须显式开启 typha 的服务发现能力:通过 Kubernetes Service 的 ClusterIP + headless Service 配合 DNS SRV 记录(需 Calico v3.22+)
  • 禁用 typha 的静态 endpoint 配置(如 TYPHA_ENDPOINTS 环境变量),否则 Felix 会绕过 DNS 直连,失去负载分散能力
  • Felix 必须设为使用 DNS 解析:FELIX_TYPHAK8SSERVICENAME 指向 headless Service 名,且 FELIX_TYPHAK8SENABLED 设为 true

如何验证 Felix 是否真的在轮询多个 Typha 实例

不能只看 kubectl get endpoints 有没有多个 IP——那只是 Service 的 endpoint 列表,不代表 Felix 实际连接行为。关键要看 Felix 进程里建立的 TCP 连接目标。

使用场景:集群有 3 个 typha 副本,但 calico-node 日志显示始终连同一个 IP。

  • 进任一 calico-node 容器:nsenter -t 1 -n ss -tnp | grep :5473(Typha 默认端口)
  • 观察输出中 ESTAB 连接的目标 IP 是否分散在多个 Typha Pod IP 上;若全指向一个 IP,说明 DNS 解析失败或 Felix 配置未生效
  • 检查 calico-node 容器内 /etc/resolv.conf 是否能解析 typha-calico.default.svc.cluster.local(假设 Service 名为 typha-calico
  • 确认 CoreDNS 或 kube-dns 返回的是 A 记录(非 CNAME),且记录数量与 Typha 副本数一致

Felix 连接 Typha 超时与重试参数怎么调才不拖慢节点启动

默认 FELIX_TYPHARECONNECTTIMER 是 1s,但在高规模集群里,大量 Felix 同时重连会导致 Typha 瞬时压力暴涨,反而延长连接建立时间。

笔灵降AI
笔灵降AI

论文降AI神器,适配知网及维普!一键降至安全线,100%保留原文格式;无口语化问题,文风更学术,降后字数控制最佳!

下载

性能影响:节点启动时,如果 Felix 连不上 Typha,会阻塞路由同步和策略加载,Pod Ready 状态延迟可达分钟级。

  • FELIX_TYPHARECONNECTTIMER 建议设为 5s10s,避免雪崩式重连
  • FELIX_TYPHATIMEOUTINSEC 不宜过短(如 2),否则网络抖动就断连;建议 58
  • 启用 FELIX_TYPHARANDOMIZESTARTUPDELAY(v3.23+),让各节点 Felix 启动后随机延迟 0–30 秒再连 Typha,削峰
  • 注意:这些参数必须在所有 calico-node DaemonSet 的 env 中统一配置,不能只改部分节点

为什么 Typha 的 TLS 配置错一点,Felix 就静默失败

Calico 不会在 Felix 日志里明确报 “TLS handshake failed”,而是表现为反复重连、最终降级为无 Typha 模式(Felix 自行处理策略,CPU 暴涨)。

容易踩的坑:用自签证书但没把 CA 加入 Felix 容器的系统信任库;或 Typha 的 server.crt 里 Subject Alternative Name(SAN)漏了 Service DNS 名。

  • 确认 typha 启动参数含 --tls-cert-file=/calico-secrets/tls.crt--tls-key-file=/calico-secrets/tls.key
  • 证书 SAN 必须包含:typha-calicotypha-calico.defaulttypha-calico.default.svctypha-calico.default.svc.cluster.local
  • Felix 容器内需挂载 CA 证书,并通过 FELIX_TYPHACAFILE 指向它(路径需与挂载路径一致)
  • openssl s_client -connect typha-calico:5473 -CAfile /path/to/ca.crt 手动验证 TLS 握手是否成功

最麻烦的点往往不在配置本身,而在证书更新后忘记滚动重启 Typha,或者忘了同步更新 Felix 的 CA 文件——这两个动作不同步,就会进入“连得上但验不过”的静默故障状态。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
default gateway怎么配置
default gateway怎么配置

配置default gateway的步骤:1、了解网络环境;2、获取路由器IP地址;3、登录路由器管理界面;4、找到并配置WAN口设置;5、配置默认网关;6、保存设置并退出;7、检查网络连接是否正常。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

229

2023.12.07

Golang云原生微服务Kubernetes_Golang怎么集成Kubernetes开发云原生服务
Golang云原生微服务Kubernetes_Golang怎么集成Kubernetes开发云原生服务

Golang云原生微服务Kubernetes (K8s) 是指 使用 Go 语言(Golang)编写的云原生微服务,并利用 Kubernetes 平台进行容器化部署、自动化管理、弹性伸缩和高效编排的一整套现代应用架构方案。

27

2025.12.22

磁盘配额是什么
磁盘配额是什么

磁盘配额是计算机中指定磁盘的储存限制,就是管理员可以为用户所能使用的磁盘空间进行配额限制,每一用户只能使用最大配额范围内的磁盘空间。php中文网为大家提供各种磁盘配额相关的内容,教程,供大家免费下载安装。

1520

2023.06.21

如何安装LINUX
如何安装LINUX

本站专题提供如何安装LINUX的相关教程文章,还有相关的下载、课程,大家可以免费体验。

714

2023.06.29

linux find
linux find

find是linux命令,它将档案系统内符合 expression 的档案列出来。可以指要档案的名称、类别、时间、大小、权限等不同资讯的组合,只有完全相符的才会被列出来。find根据下列规则判断 path 和 expression,在命令列上第一个 - ( ) , ! 之前的部分为 path,之后的是 expression。还有指DOS 命令 find,Excel 函数 find等。本站专题提供linux find相关教程文章,还有相关

300

2023.06.30

linux修改文件名
linux修改文件名

本专题为大家提供linux修改文件名相关的文章,这些文章可以帮助用户快速轻松地完成文件名的修改工作,大家可以免费体验。

791

2023.07.05

linux系统安装教程
linux系统安装教程

linux系统是一种可以免费使用,自由传播,多用户、多任务、多线程、多CPU的操作系统。本专题提供linux系统安装教程相关的文章,大家可以免费体验。

584

2023.07.06

linux查看文件夹大小
linux查看文件夹大小

Linux是一种自由和开放源码的类Unix操作系统,存在着许多不同的Linux版本,但它们都使用了Linux内核。Linux可安装在各种计算机硬件设备中,比如手机、平板电脑、路由器、视频游戏控制台、台式计算机、大型机和超级计算机。linux怎么查看文件夹大小呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

562

2023.07.20

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

561

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 9.3万人学习

Git 教程
Git 教程

共21课时 | 3.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号