0

0

Linux线上故障如何快速定位_应急排查清单说明【教程】

舞夢輝影

舞夢輝影

发布时间:2025-12-18 10:26:04

|

199人浏览过

|

来源于php中文网

原创

先明确问题现象和影响范围,再检查系统资源水位,接着定位异常进程和服务状态,最后排查网络与依赖链路,四步可快速定位80%常见故障。

linux线上故障如何快速定位_应急排查清单说明【教程】

线上Linux服务出问题,别急着重启或查日志大海捞针。先按顺序快速过一遍关键检查点,80%的常见故障(如服务不可用、响应慢、连接超时、进程异常)都能在5分钟内定位到根因。

一、确认问题现象和影响范围

明确“到底哪里不对”是排查的第一步。避免一上来就敲命令,浪费时间在无关方向。

  • 是整个服务不可访问,还是部分接口/用户报错?用curl -I 或 telnet IP 端口快速验证连通性和基础响应
  • 错误是502/503(反向代理层问题),还是超时(网络或后端卡死),或是4xx(业务逻辑或配置问题)?看客户端返回或Nginx/Apache访问日志首段
  • 是否刚发布、改配置、升内核、加监控Agent?时间线对齐能直接缩小怀疑对象

二、检查系统资源水位(CPU、内存、磁盘、IO)

资源耗尽是最常见的“假死”原因,优先用轻量命令秒级判断:

  • top / htop:看CPU使用率是否持续100%,哪个进程占高;注意看load average(尤其1分钟值),若远超CPU核心数,说明有大量任务排队
  • free -h:重点看available列,不是free;若available接近0且swap在频繁使用(si/so不为0),大概率OOM Killer已杀进程或服务被卡住
  • df -h && df -i:磁盘满(尤其是/var/log/tmp)会导致写入失败、服务拒绝请求;inode耗尽也会让新建文件失败(如Java应用无法生成临时jar)
  • iostat -x 1 3(需sysstat):看%util是否长期100%,await是否飙升——说明磁盘IO瓶颈,可能是日志刷盘、数据库大查询或存储异常

三、定位异常进程和服务状态

资源正常?那就聚焦具体服务本身:

arXiv Xplorer
arXiv Xplorer

ArXiv 语义搜索引擎,帮您快速轻松的查找,保存和下载arXiv文章。

下载
  • systemctl status 服务名(如 nginxmysqld):看Active状态、最近日志片段、是否被自动重启过;注意Failed with result字样
  • ps aux --sort=-%cpu | head -10:找CPU异常进程;结合lsof -p PID看它打开了哪些文件/端口/连接
  • ss -tulnp | grep :端口:确认服务是否真在监听目标端口;若没输出,说明进程没起来或bind失败(常因端口被占、权限不足、配置错IP)
  • journalctl -u 服务名 -n 50 --no-pager:比传统日志更实时,常含启动失败的堆或权限报错(如“Address already in use”、“Permission denied”)

四、网络与依赖链路摸排

服务自身OK,但外部访问不了?或调用下游失败?走网络路径检查:

  • ping 目标IP → 通则继续,不通查路由、安全组、防火墙iptables -L -nufw status
  • telnet 目标IP 端口nc -zv IP 端口:确认TCP可达;不通则分段排查(本机→网关→目标机器→目标端口)
  • curl -v http://目标地址:看HTTP层是否返回、重定向、证书错误;加--connect-timeout 3模拟客户端超时行为
  • 若依赖DB/Redis/第三方API,登录对应服务端执行netstat -an | grep :端口 | wc -l看连接数是否打满,或查其自身慢查询日志

不复杂但容易忽略。把这四步当检查清单,从上到下扫一遍,多数线上火情能快速掐灭。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
nginx 重启
nginx 重启

nginx重启对于网站的运维来说是非常重要的,根据不同的需求,可以选择简单重启、平滑重启或定时重启等方式。本专题为大家提供nginx重启的相关的文章、下载、课程内容,供大家免费下载体验。

233

2023.07.27

nginx 配置详解
nginx 配置详解

Nginx的配置是指设置和调整Nginx服务器的行为和功能的过程。通过配置文件,可以定义虚拟主机、HTTP请求处理、反向代理、缓存和负载均衡等功能。Nginx的配置语法简洁而强大,允许管理员根据自己的需要进行灵活的调整。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

506

2023.08.04

nginx配置详解
nginx配置详解

NGINX与其他服务类似,因为它具有以特定格式编写的基于文本的配置文件。本专题为大家提供nginx配置相关的文章,大家可以免费学习。

501

2023.08.04

tomcat和nginx有哪些区别
tomcat和nginx有哪些区别

tomcat和nginx的区别:1、应用领域;2、性能;3、功能;4、配置;5、安全性;6、扩展性;7、部署复杂性;8、社区支持;9、成本;10、日志管理。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

235

2024.02.23

nginx报404怎么解决
nginx报404怎么解决

当访问 nginx 网页服务器时遇到 404 错误,表明服务器无法找到请求资源,可以通过以下步骤解决:1. 检查文件是否存在且路径正确;2. 检查文件权限并更改为 644 或 755;3. 检查 nginx 配置,确保根目录设置正确、没有冲突配置等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

365

2024.07.09

Nginx报404错误解决方法
Nginx报404错误解决方法

解决方法:只需要加上这段配置:try_files $uri $uri/ /index.html;即可。想了解更多Nginx的相关内容,可以阅读本专题下面的文章。

3530

2024.08.07

nginx部署php项目教程汇总
nginx部署php项目教程汇总

本专题整合了nginx部署php项目教程汇总,阅读专题下面的文章了解更多详细内容。

41

2026.01.13

nginx配置文件详细教程
nginx配置文件详细教程

本专题整合了nginx配置文件相关教程详细汇总,阅读专题下面的文章了解更多详细内容。

58

2026.01.13

PHP Swoole 高性能服务开发
PHP Swoole 高性能服务开发

本专题聚焦 PHP Swoole 扩展在高性能服务端开发中的应用,系统讲解协程模型、异步IO、TCP/HTTP/WebSocket服务器、进程与任务管理、常驻内存架构设计。通过实战案例,帮助开发者掌握 使用 PHP 构建高并发、低延迟服务端应用的工程化能力。

0

2026.02.02

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MySQL 教程
MySQL 教程

共48课时 | 2万人学习

MySQL 初学入门(mosh老师)
MySQL 初学入门(mosh老师)

共3课时 | 0.3万人学习

简单聊聊mysql8与网络通信
简单聊聊mysql8与网络通信

共1课时 | 820人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号