mdadm rebuild 过程中掉盘的 bitmap enable 与 degraded 恢复流程

冷炫風刃

发布时间：2026-01-30 20:38:04

697人浏览过

来源于php中文网

原创

掉盘后bitmap不再更新但未损坏时仍有效，external bitmap更可靠；恢复需先检查superblock和Events值，再用--re-add复用bitmap增量恢复。

mdadm rebuild 过程中掉盘的 bitmap enable 与 degraded 恢复流程

mdadm rebuild 时掉盘，bitmap 是否还起作用

掉盘后 RAID 进入 degraded 状态，rebuild 中断，此时 bitmap 不再推进更新 —— 它只在正常同步、rebuild 或 reshape 过程中记录已处理的块范围。一旦设备被移除（removed 或 faulty），内核会停用 bitmap 写入，避免脏位图污染。但 bitmap 文件本身仍保留在元数据区或外部文件中，只要阵列能重新识别该盘（比如热插拔恢复），且未执行 --zero-superblock 或重建覆盖，它就仍是有效的恢复依据。

bitmap 在 degraded 状态下不更新，但未损坏时可被后续 --re-add 复用
若掉盘后手动执行 mdadm --remove /dev/sdX，再加回，需确认是否触发 clean bitmap reload（取决于 mdadm 版本和 superblock 格式）
external bitmap 更可靠：写在独立设备上，不依赖某块盘存活；internal bitmap 存于盘尾，掉盘即不可读

掉盘后如何安全恢复 degraded 阵列

核心原则：不强制启动、不跳过一致性检查、不盲目 --re-add。先确认盘状态和 superblock 完整性：

运行 mdadm --examine /dev/sdX 检查该盘是否有有效 superblock 和一致的 Events 值（应与阵列中其他盘接近）
若 mdadm --detail /dev/md0 显示 State : clean, degraded，说明阵列已停止 I/O，此时可尝试 mdadm --re-add /dev/md0 /dev/sdX
如果盘被标记为 spare 而非 active，可能需要先 mdadm --zero-superblock /dev/sdX 再重加（⚠️危险：仅当确认该盘无新写入且 superblock 错乱时才用）
加回后观察 /proc/mdstat：若看到 recovery = 12.3% (…) 且无 bitmap 相关报错，说明 bitmap 正常参与增量恢复

bitmap enable 对 rebuild 性能与恢复行为的实际影响

启用 bitmap（尤其 external）不是“加速 rebuild”那么简单，它改变的是恢复粒度和中断容忍力：

Pixso AI

Pixso AI是一款智能生成设计稿工具，通过AI一键实现文本输入到设计稿生成。

下载

没有 bitmap：掉盘后重加，必须全盘 resync（resync=100%），耗时随盘容量线性增长
有 internal bitmap：rebuild 从中断点 resume，但若掉盘导致 bitmap 所在盘失效，则 bitmap 丢失，退化为全量 sync
有 external bitmap：只要 bitmap 设备在线，即使多块数据盘轮番掉线，也能持续跟踪已同步区域；但注意 external bitmap 本身单点故障，建议放 RAID1 上
开启命令是 mdadm --grow --bitmap=internal /dev/md0（或 file + 路径），但 grow 操作本身会触发一次 full sync，生产环境慎用

常见误操作与 silent 失败场景

很多“恢复失败”其实源于状态误判或命令顺序错误，而非 bitmap 本身问题：

mdadm --assemble --force 强启 degraded 阵列后直接挂载：可能导致文件系统元数据损坏，因为阵列尚未完成 dirty bitmap 回填
掉盘后手动 echo "w" > /proc/sysrq-trigger 触发 writeback，却没等 md 层 flush 完成就断电 → bitmap 和 superblock 事件计数不一致，mdadm --examine 显示 Events : 0 或负值
使用较老内核（
mdadm --grow --bitmap=none 后立即 --re-add：bitmap 区域未清理干净，内核可能拒绝加载，报错 Invalid bitmap file