Linux 内核日志分析与故障排查

冷炫風刃

发布时间：2026-02-20 16:38:42

133人浏览过

来源于php中文网

原创

dmesg关键日志需精准过滤而非全览：用dmesg -t | grep -i "error\|warn\|fail\|unable"筛选，结合硬件总线关键词、模块名对照lsmod、addr2line定位源码，oom需联动ps/cgroup验证，警惕“无报错=无问题”盲区。

linux 内核日志分析与故障排查

怎么看 `dmesg` 里真正有用的那几行

内核日志不是日志，是线索拼图——dmesg 默认刷屏全是初始化信息，真出问题时关键报错往往被淹没在千行启动日志里。重点不是“看全”，而是“过滤准”。

实操建议：

用 dmesg -T | grep -i "error\|warn\|fail\|unable" 加时间戳筛选（-T 需 root 或 sudo 权限）
硬件类问题优先搜 pci、nvme、ata、usb 等总线关键词，比如 dmesg | grep -A2 -B2 nvme
驱动加载失败常表现为 modprobe: FATAL: Module xxx not found，但内核实际可能已静默 fallback 到通用驱动，得结合 lsmod 和 /proc/modules 对照
别信 dmesg -c 清空后“没报错=没问题”——有些错误只在设备热插拔或负载突增时触发，需配合 dmesg -w 实时盯梢

`journalctl -k` 和 `dmesg` 输出不一致？

因为它们来源不同：dmesg 直读内核环形缓冲区（log_buf），而 journalctl -k 读的是 systemd-journald 持久化后的内核日志副本——缓冲区满会丢老日志，journald 可能因配置丢字段或截断。

实操建议：

查最近一次重启前的错误，必须用 journalctl -k -b -1（-b -1 表示上一次 boot）
发现 journalctl -k 有内容但 dmesg 没有，大概率是内核缓冲区溢出，调大 kernel.printk_ratelimit 或改 kernel.log_buf_len（需 boot 参数）
若 journalctl -k 完全空白，检查 journald 是否禁用了内核日志捕获：grep -i "kmsg" /etc/systemd/journald.conf，确认 ForwardToKMsg= 是 yes

从 `dmesg` 报错定位具体驱动或模块

内核错误行末尾常带 [xxxxx]，那是模块名缩写，但不是源码模块名，而是内核符号表里注册的名称，和 lsmod 输出一致。

阿里云AI平台

下载

实操建议：

看到类似 nvme 0000:01:00.0: PCIe Bus Error: severity=Correctable，其中 nvme 就是模块名，直接 lsmod | grep nvme 看是否加载、版本号
报错含地址如 BUG: unable to handle kernel NULL pointer dereference at 0000000000000000，用 addr2line -e /lib/modules/$(uname -r)/build/vmlinux 0000000000000000 反查（需安装 debuginfo 包）
某些驱动（如 igb、r8169）有多个变体，报错里模块名可能和 lspci -k 显示的 Kernel driver in use 不一致，此时以 lspci -vv -s xx:xx.x | grep -A10 "Kernel modules" 为准

为什么 `dmesg` 里有 OOM killer 记录却找不到进程被杀

OOM killer 日志（Killed process xxx (xxx) total-vm:xxxxkB, anon-rss:xxxxkB, file-rss:0kB）只记录它动手那一刻的状态，但进程可能已退出、被信号终止，或被容器 runtime 拦截并静默回收。

实操建议：

OOM 日志本身不含 PID 命令行，需立刻执行 ps aux --sort=-%mem | head -20 对照内存占用峰值
容器环境（Docker/Podman）中，OOM 由 cgroup v1/v2 触发，dmesg 记录的是内核视角，实际 kill 由 runc 或 crun 执行，查 docker ps -a 或 podman ps -a 看状态为 Exited (137)
检查 /sys/fs/cgroup/memory/ 下对应 cgroup 的 memory.oom_control 和 memory.events，确认是否启用 OOM killer

内核日志最危险的盲区不是看不懂报错，而是把“没报错”当结论——很多硬件降级、驱动静默 fallback、cgroup 节流都不会打 ERROR，只在 /proc 或 sysfs 留痕迹。

Linux kubelet 的 --eviction-hard / --eviction-soft 配置阈值经验值

Linux minio 的 mc admin policy 与用户/组 RBAC 细粒度控制

Linux route 与 ip route 配置案例

Linux 自动化故障恢复策略

Linux MicroK8s 的 add-on 与高可用集群搭建模板

相关标签:

linux NULL sort Error pointer docker podman linux bug

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Linux teamd 的 runner activebackup / loadbalance / lacp 与 bonding 的功能对比下一篇：暂无

作者最新文章

微信电脑版文件已过期或被清理怎么恢复微信电脑版文件被清理恢复方法

2026-02-19 12:57

GitHub 仓库怎么上传文件？文件上传与提交方法讲解

2026-02-19 13:03

Python HSM（硬件安全模块）的 Python 接口

2026-02-19 13:34

天猫养车附近门店怎么找？附近天猫养车店地址

2026-02-19 13:36

edge网页版官网入口 Edge在线服务访问说明

2026-02-19 13:38

Python PyScript / Pyodide 的前端集成实践

2026-02-19 13:52

手机淘宝如何开店注册？手机淘宝如何开店注册店铺

2026-02-19 13:59

SQL 事务日志分析与优化实践

2026-02-19 14:21

Python 时区转换的常见 Bug 总结

2026-02-19 14:23

腾讯会议电脑版无法开启视频怎么办

2026-02-19 14:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

246

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

806

2024.03.01

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

402

2023.09.04

scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

371

2023.10.18

500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

340

2023.10.25

k8s和docker区别

k8s和docker区别有抽象层次不同、管理范围不同、功能不同、应用程序生命周期管理不同、缩放能力不同、高可用性等等区别。本专题为大家提供k8s和docker区别相关的各种文章、以及下载和课程。

265

2023.07.24

docker进入容器的方法有哪些

docker进入容器的方法：1. Docker exec；2. Docker attach；3. Docker run --interactive --tty；4. Docker ps -a；5. 使用 Docker Compose。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

512

2024.04.08

docker容器无法访问外部网络怎么办

docker 容器无法访问外部网络的原因和解决方法：配置 nat 端口映射以将容器端口映射到主机端口。根据主机兼容性选择正确的网络驱动（如 host 或 overlay）。允许容器端口通过主机的防火墙。配置容器的正确 dns 服务器。选择正确的容器网络模式。排除主机网络问题，如防火墙或连接问题。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

411

2024.04.08