自动化运维脚本核心是让重复操作可靠、可复用、可追溯,关键在稳、准、快;需明确目标、抽离变量、设计错误处理、优选shell、加日志校验回滚,并经本地→测试→灰度验证。

写自动化运维脚本,核心是让重复操作变可靠、可复用、可追溯。不是追求功能多,而是稳、准、快——尤其在批量管理服务器、部署服务、巡检日志这类高频场景里。
明确目标再动手:先想清楚“自动什么”
别一上来就写 for 循环。先问自己三个问题:
- 当前手动操作的每一步是什么?有没有固定顺序和依赖关系?
- 哪些参数会变?比如主机 IP、版本号、路径前缀——这些要抽成变量或命令行参数
- 失败了怎么处理?是跳过、重试,还是立刻退出并报错?加
set -e或显式判断$?很关键
例如批量重启某服务,不能只写 ssh $host systemctl restart nginx,得加超时、检查端口是否恢复、记录执行结果到日志文件。
选对语言和工具:Shell 够用就别硬上 Python
日常运维中,80% 的任务用 Bash 就很合适——启动服务、查进程、同步文件、解析日志行。它轻量、系统自带、无需额外环境。
- 用
getopts解析参数,比手工切$1 $2更健壮 - 用
here document写多行配置或临时脚本,避免引号嵌套混乱 - 敏感信息(如密码)别硬编码,改用
ssh-agent、env vars或专用密钥管理工具
当逻辑变复杂(比如要并发控制、调 API、做数据聚合),再考虑 Python + Paramiko / Fabric / Ansible。但记住:越简单越容易维护。
让脚本能被信任:加日志、加校验、加回滚
一个没人敢上线的脚本,写得再漂亮也没用。可信来自三件事:
-
执行前打印将要做的操作(dry-run 模式),加
-n参数支持预览 -
关键步骤前后留痕迹:用
date >> deploy.log记时间,用md5sum /etc/nginx/nginx.conf >> backup.md5留校验 -
有退路:修改配置前先
cp nginx.conf nginx.conf.bak.$(date +%s);升级前 tar 打包旧版本目录
别省这几行代码。线上出问题时,它们就是救命稻草。
落地前必须验证:本地 → 测试机 → 小范围灰度
脚本不是写完就能跑。真实环境永远有意外:
- 不同发行版命令行为差异(比如
ps aux在 CentOS 和 Alpine 上字段顺序可能不同) - 权限问题:脚本以谁的身份运行?sudo 权限是否已配好?SELinux/AppArmor 是否拦截?
- 网络波动导致 ssh 超时、curl 失败——加重试逻辑,但限制次数,避免雪崩
建议用 Vagrant 或 Podman 启几个最小化容器模拟目标环境,把脚本放进去跑通再推生产。
不复杂但容易忽略:每次更新脚本后,顺手加个版本号和修改说明在注释头里。半年后你翻出来,会感谢现在的自己。










