ethtool -S rx_errors 或 tx_errors 增长但业务无感知的阈值经验

冷炫風刃

发布时间：2026-01-21 14:40:03

993人浏览过

来源于php中文网

原创

rx_errors或tx_errors增长即使业务无感知也需重视，因其是链路隐患早期信号；应聚焦错误子项类型、增长节奏及业务容错边界，结合ethtool诊断与交叉验证定位根因。

ethtool -s rx_errors 或 tx_errors 增长但业务无感知的阈值经验

rx_errors 或 tx_errors 增长但业务无感知，不代表可以忽略——它往往是链路隐患的早期信号。关键不在于“是否影响当前业务”，而在于“错误类型、增长速率、底层原因是否可控”。没有统一阈值，但有可操作的判断逻辑和经验参考。

先看错误类型，比数值更重要

ethtool -S 输出中 rx_errors / tx_errors 是聚合计数，真正需关注的是其子项：

rx_crc_errors：物理层问题（线缆劣化、模块故障、电磁干扰），哪怕每秒 1~2 个也需排查；
rx_frame_errors：接收帧格式异常，常与对端设备驱动、网卡 offload 配置不一致有关；
tx_aborted_errors / tx_carrier_errors：多见于双工不匹配、链路抖动或 PHY 自协商失败；
rx_missed_errors：内核收包慢或 ring buffer 溢出，可能关联 CPU 负载高、net.core.netdev_max_backlog 不足；
rx_length_errors：MTU 不匹配或中间设备（如交换机 ACL、VLAN trunk）截断/填充异常。

若 rx_errors 中 90% 以上是 rx_crc_errors 或 tx_carrier_errors，即使每小时只增 5~10，也建议立即检查光模块收发光、线缆插拔状态和对端协商模式。

看增长节奏，区分稳态噪声与恶化趋势

连续监控 5~10 分钟，观察增量分布：

稳定在 0~1 次/分钟，且长期无突增 → 多为偶发干扰，可记录 baseline，暂不干预；
周期性出现（如每 30 秒固定 +1），大概率是定时任务触发（如某些监控探针发 malformed probe）或硬件 timer 相关缺陷；
呈指数或线性上升（如从 0→5→12→28/5min），无论绝对值多小，都表明链路正在劣化，24 小时内应介入；
单次突增 >100（尤其伴随 link flap 或 ethtool -d dump 显示 PHY 寄存器异常），需立即隔离端口并检查物理连接。

结合业务特征定“无感”边界

所谓“无感知”取决于协议容错能力与流量模型：

ModelGate

一站式AI模型管理与调用工具

下载

TCP 流量：少量丢包由重传掩盖，但持续 rx_errors > 0.001% of rx_packets/sec 可能抬高 retransmit rate，延迟敏感业务（如 Redis 主从同步、gRPC 调用）已开始抖动；
UDP 流量（视频推流、监控上报）：rx_errors 增长即等于有效数据丢失，0.01% 丢包率就可能导致花屏或告警漏报；
存储网络（iSCSI/NFS）：单个 CRC 错误可能引发整个 IO 请求失败，此时任何非零 rx_crc_errors 都不可接受。

建议在业务低峰期用 iperf3 + --udp --loss 模拟验证：当实际错误率 ≈ 模拟丢包率时业务仍正常，才说明当前错误水平确属“无感”。

快速止血与根因定位建议

发现异常增长后，按顺序执行：

ethtool ethX 查看 Speed/Duplex/Link detected，确认是否 auto-negotiation 成功；
ethtool -m ethX（光模块诊断）检查 Temp/Voltage/TxPower/RxPower 是否越限；
更换线缆/端口/对端设备，交叉验证是否复现；
关闭 GSO/GRO/LRO 等 offload（ethtool -K ethX gso off gro off）排除驱动兼容问题；
抓包对比：tcpdump -i ethX -w err.pcap 抓 1 分钟，过滤 malformed packet（如 tcpdump 'ether[12:2] != 0x0800'），确认是否来自特定源或协议。

不复杂但容易忽略。

/dev/shm 被塞满导致 Redis / PostgreSQL / Java 崩溃的业务场景

/dev/shm 被塞满导致 Redis/PostgreSQL 崩溃的业务场景与限制方法

/ dev/shm 被塞满导致 PostgreSQL 或 Redis 崩溃的常见业务场景

Linux防火墙规则如何编写_完整流程拆解让问题迎刃而解【教程】

Linux如何使用队列模块提升效率_Linux任务排队系统

相关专题

常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

1007

2023.11.02

内存数据库有哪些

内存数据库有Redis、Memcached、Apache Ignite、VoltDB、TimesTen、H2 Database、Aerospike、Oracle TimesTen In-Memory Database、SAP HANA和ache Cassandra。更多关于内存数据库相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

673

2023.11.14

mongodb和redis哪个读取速度快

redis 的读取速度比 mongodb 更快。原因包括：1. redis 使用简单的键值存储，而 mongodb 存储 json 格式的数据，需要解析和反序列化。2. redis 使用哈希表快速查找数据，而 mongodb 使用 b-tree 索引。因此，redis 在需要高性能读取操作的应用程序中是一个更好的选择。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

501

2024.04.02

redis怎么做缓存服务器

redis 作为缓存服务器的答案：redis 是一款开源、高性能、分布式的键值存储，可作为缓存服务器使用。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

413

2024.04.07

redis怎么解决数据一致性

redis 提供了两种一致性模型，以维护副本数据一致性：强一致性 (sync) 确保写操作仅在复制到所有从节点后才完成；最终一致性 (async) 则在主节点上写操作后认为已完成，牺牲一致性换取性能。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

408

2024.04.07

mysql和redis怎么保证双写一致性

确保 mysql 和 redis 双写一致性的技术包括：1、事务性更新：同时更新 mysql 和 redis，保证一致性；2、主从复制：mysql 主服务器更改同步到 redis 从服务器；3、基于事件的更新：mysql 记录更改并发送到 redis等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

484

2024.04.07