vxlan延迟比host-gw高0.2–0.8ms,因其需udp封装/解封装、fdb查表及绕过fast path进入gso/gro流程,而host-gw仅路由查表后二层转发;host-gw要求节点同二层广播域,跨路由器、云overlay或vlan未透传即失效。

vxlan backend 的延迟为什么比 host-gw 高 0.2–0.8ms
因为 VXLAN 在内核协议栈里多走了一层封装/解封装:原始 IP 包被包进 UDP,再加一层 IP 头,发出去前要查 FDB、更新 VTEP 表;接收时反向操作。host-gw 则只是查路由表后直接二层转发,不碰隧道逻辑。
实测中,同一台宿主机上两个 Pod 通信(跨节点),vxlan 平均 ping 延迟约 1.1ms,host-gw 约 0.4ms——差值主要卡在 veth → flannel.1 → UDP 封装链路。
- UDP 封装本身不耗时,但触发
skb->encapsulation = 1后会绕过部分 fast path,进入更重的 GSO/GRO 流程 -
flanneld每次 ARP 学习要写/run/flannel/subnet.env并触发iptables规则刷新,高频建连时有抖动 - VXLAN 默认 MTU 是 1450,若底层网络不支持 jumbo frame,小包分片概率上升,进一步拉高延迟毛刺
host-gw 在什么网络环境下根本跑不起来
host-gw 要求所有 Node 必须在同一个二层广播域,也就是能直接通过 MAC 地址通信。一旦中间隔着路由器、VLAN 透传未开、或云厂商用了 overlay 网络(比如 AWS 的 VPC、阿里云的经典网络后端),host-gw 就会静默失效:路由写了,但 ARP 请求发不出去,arping -I eth0 <next-hop></next-hop> 直接超时。
- 公有云环境基本排除
host-gw,除非你明确确认宿主机网卡直通物理交换机且 VLAN 全放开 - 混合云或跨 IDC 场景,即使物理链路可达,只要中间有三层设备做策略路由或 ACL 限 UDP/ICMP,
host-gw的 ARP 探测就会失败 -
flanneld日志里如果反复出现failed to acquire lease: node xxx has no ip或failed to send ARP request,大概率是二层不通
吞吐压测时 vxlan 和 host-gw 的真实差异在哪
用 iperf3 -c <pod-ip> -t 30 -P 8</pod-ip> 测跨节点带宽,host-gw 通常能跑到宿主机间直连的 92–96%,vxlan 在 85–90% 左右。差距不是出在“加密”或“CPU 占用高”,而是内核处理路径不同:
-
host-gw走的是dev_queue_xmit()直发,路径短,GRO 合并效率高 -
vxlan的udp_sendmsg()→ip_local_out()→__dev_queue_xmit()多跳,且 UDP 校验和计算、TTL 递减、FDB 查表都在线上完成,对缓存局部性不友好 - 当开启
net.ipv4.udp_l3mdev_accept = 1且使用多队列网卡时,vxlan的软中断分布更容易不均,单核打满导致吞吐瓶颈
示例:在 10Gbps 网卡上,host-gw 实测稳定 9.3Gbps,vxlan 在无调优下仅 8.1Gbps;加上 ethtool -L eth0 combined 16 + sysctl net.core.rmem_max=16777216 后可提到 8.7Gbps,但仍低于 host-gw。
flannel 启动时怎么强制选 backend 还不踩坑
backend 不是在启动参数里硬编码的,而由 flanneld 自动探测:先查 /run/flannel/options.env 或 CLI --backend-type,没设就 fallback 到 vxlan。但很多人忽略 --iface 和 --ip-masq 的联动影响。
- 显式指定必须用
flanneld --backend-type=host-gw --iface=eth0,不能只写--backend-type=host-gw——否则它可能选错网卡,导致路由指向错误接口 -
host-gw下--ip-masq=true会干扰 SNAT,建议关掉;vxlan下可以开,用于访问集群外服务 - 修改 backend 后必须删掉
/run/flannel/subnet.env和/var/run/flannel/subnet.env,否则 flanneld 会沿用旧子网配置,Pod CIDR 冲突 - 验证是否生效:看
ip route show table flannel,host-gw应该全是via <node-ip> dev eth0</node-ip>,vxlan则是via <vtep-ip> dev flannel.1</vtep-ip>
host-gw 对底层网络拓扑的零容忍——它不报错,只静默丢包;而 vxlan 的性能损耗不是常量,会随并发连接数、MTU、网卡驱动版本明显浮动。测之前务必确认你的 ethtool -i eth0 输出里 driver 是 ixgbe 还是 virtio_net,这两者在 UDP 封装路径上的表现差一倍。










