首先检查连通性,通过ping和mtr测试本机、网关及外网延迟与丢包;接着评估系统资源,用top、free、iostat分析CPU、内存、磁盘I/O负载;然后检查网络接口错误与TCP重传率,使用ip -s link和netstat -s定位网卡或协议栈问题;再通过ss查看连接队列堆积情况,确认应用处理能力;对于NAT/防火墙服务器,检查conntrack连接数是否超限;最后用iftop、nload监控带宽占用,结合tcpdump抓包分析重传、重复ACK和窗口大小,综合判断拥塞根源。

要分析Linux系统中的网络拥塞情况,需要从连通性、系统资源、网络接口、连接状态和数据包层面进行综合排查。核心是找到丢包、延迟或带宽耗尽的根本原因。
检查连通性与路径质量
这是第一步,用于判断问题范围。
-
测试关键节点: 用ping 127.0.0.1检查本机协议栈;用ping <网关IP>(通过ip route | grep default获取)检查局域网;用ping 8.8.8.8检查外网连通性。异常的高延迟或丢包能快速定位故障段。
-
追踪完整路径: 使用mtr <目标IP>结合了ping和traceroute的功能。它能显示数据包经过的每一跳的延迟和丢包率。如果从某个特定跳点开始出现严重丢包,问题很可能出在该节点或其上游网络服务商(ISP)的链路上。
评估本地系统资源负载
网络性能受限于CPU、内存、磁盘I/O等整体系统健康度。
-
CPU与内存: 运行top或htop查看是否有进程占满CPU。执行free -h,重点关注available(可用)内存是否充足,避免因内存不足导致频繁使用Swap而拖慢整个系统响应。
-
磁盘I/O: 高强度的磁盘读写会抢占CPU时间,影响网络应用处理能力。使用iostat -x 1监控,若%util持续接近100%,且await值很高,则磁盘I/O可能是瓶颈。
分析网络接口与连接状态
直接检查网卡和TCP协议栈的统计信息,寻找拥塞的明确信号。
-
网卡错误与丢弃: 执行ip -s link show <网卡名>,观察输出中的errors和dropped计数是否持续增长。大量错误可能指向硬件、驱动或物理链路(如网线)问题。
-
TCP重传率: 高重传是网络拥塞的核心指标。运行netstat -s并查找segments retransmitted或retransSegs的数值。如果该数字在短时间内显著增加,说明有大量数据包丢失,网络极可能已拥塞。
-
连接队列堆积: 使用ss -natp查看所有TCP连接。关注Recv-Q和Send-Q两列,如果数值长期不为零,表示应用来不及处理接收的数据或发送缓冲区被填满,这既是拥塞的结果,也可能加剧拥塞。
-
连接跟踪限制: 对于NAT或防火墙服务器,检查cat /proc/sys/net/netfilter/nf_conntrack_count是否接近nf_conntrack_max。达到上限会导致新连接无法建立,表现为服务不可用。
监控实时流量与深入抓包
定位具体是哪个进程或哪种流量消耗了带宽,并分析底层数据包行为。
-
识别带宽占用者: 使用iftop -i <网卡名>可以实时看到按IP和端口划分的带宽使用情况,快速揪出“带宽杀手”进程或连接。工具nload提供简洁的双通道(收/发)流量图。
-
捕获并分析数据包: 当怀疑特定连接有问题时,用tcpdump -i <网卡名> host <目标IP> -w capture.pcap抓包,然后用Wireshark打开分析。重点观察是否存在大量TCP重传(Retransmission)、重复ACK(Dup ACK)以及接收窗口(Window)过小的情况,这些都直接反映了网络拥塞或接收方处理能力不足。
基本上就这些。
以上就是Linux如何分析网络拥塞情况_Linux流量瓶颈排查的详细内容,更多请关注php中文网其它相关文章!