Linux 自动化巡检与故障排查

舞姬之光

发布时间：2026-02-17 11:55:03

147人浏览过

来源于php中文网

原创

优先选bash，因其零开销、无依赖、系统自带，适合调用df/ps/systemctl等命令；python仅在需解析json、调用api或结构化输出时使用。

linux 自动化巡检与故障排查

巡检脚本该用 bash 还是 Python？

优先选 bash，除非你要解析 JSON、调用 API 或做复杂状态聚合。Linux 巡检本质是串起 df、ps、systemctl、journalctl 这些命令，bash 直接调用零开销、无依赖、所有机器都自带。Python 一旦涉及 subprocess 调命令，还要处理编码、空格、换行截断，反而容易出错。

常见错误现象：python3 -c "import subprocess; subprocess.run(['df', '-h']) 输出乱码或卡住；bash 脚本里用 $(ps aux | grep nginx) 匹配到自己进程。

用 pgrep nginx 替代 ps | grep，避免误匹配
所有命令加 -o pid,comm,%cpu,%mem 等明确字段，别依赖默认列顺序
日志检查用 journalctl --since "2 hours ago" -u sshd --no-pager，不用 tail -n 100 /var/log/auth.log（可能被 logrotate 切走）
Python 只在需要结构化输出时介入：比如把多台机器的 df 结果统一转成 CSV 或发钉钉

如何让巡检不干扰线上服务？

关键不是“少查”，而是“查得准、查得稳”。很多脚本一跑就触发 OOM killer 或拖慢磁盘 IO，问题出在没控制采样粒度和资源占用。

使用场景：每 5 分钟 cron 执行一次基础巡检，但 find /var/log -name "*.log" -size +100M 这种命令不能放进去——它会遍历整个目录树，IO 尖峰明显。

磁盘空间用 df -B1 / | awk 'NR==2 {print $4}'，不加 -h 避免单位转换开销
CPU/内存用 cat /proc/loadavg 和 awk '/MemAvailable/ {print $2}' /proc/meminfo，比 top -bn1 轻量十倍
服务状态用 systemctl is-active --quiet nginx，返回值判断，不打印任何输出
避免在巡检中执行 lsof、strace、tcpdump —— 它们本身就会改变系统行为

故障排查时怎么快速定位是配置、资源还是依赖问题？

先跑三行命令，比翻日志快：systemctl show --property=ExecMainPID,MemoryCurrent,SubState nginx、ss -tlnp | grep :80、curl -I http://localhost:80 -m 2 2>/dev/null || echo "connect failed"。这三步分别确认进程是否活着、端口是否监听、服务是否响应。

容易踩的坑：systemctl status nginx 显示 active (running)，但实际 worker 进程已崩溃（只留 master）；netstat -tlnp 在新系统默认没装，ss 是替代方案。

systemctl show 比 status 更可靠，它读的是 systemd 内部状态，不依赖 journal 日志完整性
ss -tlnp 的 p 参数需 root 权限，普通用户看不到 PID 和程序名，巡检脚本记得用 sudo 或改用 ss -tln + 端口匹配
curl -I 加 -m 2 防止卡死，2>/dev/null 屏蔽 SSL 错误等干扰信息
依赖检查别只看端口通不通，比如 Redis 连接池耗尽时，telnet localhost 6379 成功但业务报错，得补一句 echo PING | redis-cli -n 0 --raw

日志关键词扫描为什么总漏报或误报？

因为直接 grep "ERROR" 忽略了大小写、上下文、日志格式差异。真实日志里可能是 [ERROR]、error:、level=error，甚至带时间戳前缀导致行首偏移。

性能影响：对 1GB 的 /var/log/syslog 做 grep -r "failed" /var/log，会触发大量小文件读取，IO 占用高且不准。

用 journalctl -p 3 --no-pager（priority 3 = err）代替文本 grep，利用 journal 的结构化索引
自定义日志扫描用 awk '/\[ERROR\]|error:|level=error/{print NR ": " $0}' /var/log/myapp.log，一行覆盖常见变体
加 -A 2 -B 1 查看上下文，但仅限人工排查；自动化脚本里避免，防止输出膨胀
别扫全量日志，先用 find /var/log -name "*.log" -mtime -1 锁定最近 24 小时文件

最麻烦的不是写脚本，是让巡检结果真正可操作：比如 “磁盘使用率 >90%” 得附上 du -sh /var/log/* | sort -hr | head -5 的前五名目录，否则运维还得再登录一遍才能删什么。

Linux vmstat 与 iostat 性能分析实战

Linux gVisor runsc 的 syscall intercept 数量与性能折衷分析

Linux swap 分区与内存管理优化

Linux SELinux 与文件访问控制结合

Linux 磁盘 I/O 性能瓶颈排查实践

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux 自动化执行失败的兜底策略下一篇：ipvsadm vip 无响应的 keepalived vrrp_instance unicast_peer 配置

作者最新文章

俄罗斯搜索引擎浏览器俄罗斯搜索引擎浏览器下载

2026-02-16 12:22

GitHub 如何下载别人的文件？权限与下载方式说明

2026-02-16 12:46

Python datetime 与 timestamp 的双向转换陷阱

2026-02-16 13:01

Python 官方网站是什么？Python 官网入口与下载说明

2026-02-16 13:17

Python 正则匹配中的贪婪与非贪婪陷阱

2026-02-16 13:19

Python 标准输入输出的重定向机制

2026-02-16 13:32

Python Spark 应用的监控指标

2026-02-16 13:51

Linux ethtool -k / -K 的 offload 特性关闭对高延迟场景的影响

2026-02-16 14:03

google浏览器无需下载官网地址_谷歌Chrome官方无需下载官网入口网址

2026-02-16 14:07

SQL EXISTS 与 JOIN 优化实践

2026-02-16 14:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

nginx 重启

nginx重启对于网站的运维来说是非常重要的，根据不同的需求，可以选择简单重启、平滑重启或定时重启等方式。本专题为大家提供nginx重启的相关的文章、下载、课程内容，供大家免费下载体验。

240

2023.07.27

nginx 配置详解

Nginx的配置是指设置和调整Nginx服务器的行为和功能的过程。通过配置文件，可以定义虚拟主机、HTTP请求处理、反向代理、缓存和负载均衡等功能。Nginx的配置语法简洁而强大，允许管理员根据自己的需要进行灵活的调整。php中文网给大家带来了相关的教程以及文章，欢迎大家前来学习阅读。

515

2023.08.04

nginx配置详解

NGINX与其他服务类似，因为它具有以特定格式编写的基于文本的配置文件。本专题为大家提供nginx配置相关的文章，大家可以免费学习。

566

2023.08.04

tomcat和nginx有哪些区别

tomcat和nginx的区别：1、应用领域；2、性能；3、功能；4、配置；5、安全性；6、扩展性；7、部署复杂性；8、社区支持；9、成本；10、日志管理。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

240

2024.02.23

nginx报404怎么解决

当访问 nginx 网页服务器时遇到 404 错误，表明服务器无法找到请求资源，可以通过以下步骤解决：1. 检查文件是否存在且路径正确；2. 检查文件权限并更改为 644 或 755；3. 检查 nginx 配置，确保根目录设置正确、没有冲突配置等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

500

2024.07.09