
本文介绍在 Java 长周期轮询场景中,如何通过「心跳机制 + 看门狗线程」实时检测轮询是否停滞,并在超时(如 60 秒)后触发告警(如邮件通知),同时规避未捕获 Error 或线程阻塞导致的静默失败。
本文介绍在 java 长周期轮询场景中,如何通过「心跳机制 + 看门狗线程」实时检测轮询是否停滞,并在超时(如 60 秒)后触发告警(如邮件通知),同时规避未捕获 `error` 或线程阻塞导致的静默失败。
在构建消息流消费系统时,常采用定时轮询(如每 20 秒拉取一次)配合处理与落库逻辑。这类任务通常运行在后台守护线程中,一旦因未预期异常、资源死锁或 I/O 阻塞而中断,极易“静默失效”——进程仍在运行,但业务逻辑已停止推进,且无任何可观测信号。此时仅依赖日志或外部监控难以及时发现,亟需一套轻量、可靠、可嵌入的内建健康检查机制。
核心思路是:将轮询主循环视作“生命体”,每次成功完成一轮逻辑即发送一次心跳;由独立的守护线程(Watchdog)持续观测心跳间隔,一旦超过预设宽限期(如 60 秒),立即执行告警动作(打印堆栈、发邮件、上报指标等)。
以下是一个生产就绪的 Watchdog 实现,采用 java.time.Instant 精确计时,支持纳秒级精度,并以守护线程方式运行,不干扰主业务流:
import java.time.Duration;
import java.time.Instant;
public class Watchdog {
private final Duration gracePeriod;
private final Thread watchedThread;
private volatile Instant lastProgress;
public Watchdog(Duration gracePeriod) {
this.gracePeriod = gracePeriod;
this.watchedThread = Thread.currentThread();
everythingIsFine(); // 初始化心跳时间
// 启动守护线程,持续监控
Thread monitor = new Thread(this::keepWatch, "Watchdog-Monitor");
monitor.setDaemon(true);
monitor.start();
}
/**
* 主循环调用此方法,声明“本轮执行成功,一切正常”
*/
public void everythingIsFine() {
this.lastProgress = Instant.now();
}
private void keepWatch() {
while (true) {
Duration silence = Duration.between(lastProgress, Instant.now());
if (silence.compareTo(gracePeriod) > 0) {
// 【关键告警点】此处可替换为邮件发送、HTTP 告警、Prometheus 指标上报等
System.err.println("[ALERT] Watchdog detected stall for "
+ silence.toSeconds() + "s. Thread stack trace:");
for (StackTraceElement e : watchedThread.getStackTrace()) {
System.err.println("\tat " + e);
}
// 示例:集成邮件发送(需补充 MailSender 工具类)
// MailSender.alert("Polling stalled", "Thread stuck at: " + watchedThread.getStackTrace()[0]);
}
try {
// 检查间隔设为 gracePeriod,避免过度轮询
Thread.sleep(gracePeriod.toMillis());
} catch (InterruptedException e) {
Thread.currentThread().interrupt();
return;
}
}
}
}在实际轮询任务中,只需两处简单集成:
- 构造 Watchdog 实例(建议在轮询启动前初始化);
- 在每次完整轮询逻辑执行完毕后,调用 everythingIsFine() —— 这是心跳信号的核心。
完整使用示例:
public class MessagePoller {
private final DatabaseService dbService;
private final MessageStream stream;
public void startPolling() {
// ✅ 步骤1:初始化看门狗(宽限期设为60秒)
Watchdog watchdog = new Watchdog(Duration.ofSeconds(60));
// ✅ 步骤2:无限轮询主循环(务必捕获 Throwable!)
for (;;) {
try {
// 1. 拉取消息
List<Message> messages = stream.poll(20_000);
// 2. 处理消息
List<ProcessedMessage> processed = process(messages);
// 3. 存入数据库
dbService.saveAll(processed);
// ✅ 步骤3:宣告本轮成功,刷新心跳
watchdog.everythingIsFine();
// 动态休眠:补偿处理耗时,维持准周期性(可选)
long processingTime = System.currentTimeMillis() - startTime;
long sleepMs = Math.max(0, 20_000 - processingTime);
Thread.sleep(sleepMs);
} catch (Throwable t) { // ⚠️ 关键:必须捕获 Throwable,而非仅 Exception
System.err.println("Unexpected failure in polling loop: " + t);
// 记录详细日志、触发熔断或降级策略
// 注意:此处不调用 everythingIsFine(),watchdog 将自然触发告警
}
}
}
private List<ProcessedMessage> process(List<Message> msgs) { /* ... */ }
}⚠️ 重要注意事项
- 务必捕获 Throwable:Error(如 OutOfMemoryError、StackOverflowError)不会被 catch(Exception) 捕获,会导致线程直接退出,Watchdog 失效。必须升级为 catch(Throwable) 并做兜底处理。
- 避免在 everythingIsFine() 中执行耗时操作:该方法应保持极简(仅更新 volatile 时间戳),否则可能引入新的阻塞点。
- Watchdog 自身需为守护线程(setDaemon(true)):确保其不阻止 JVM 正常退出,符合监控组件定位。
- 告警动作需幂等且异步:邮件发送等 I/O 操作建议委托至线程池或消息队列,防止阻塞监控线程。
- 生产环境建议增强可观测性:结合 Micrometer 上报 watchdog.stall_count 计数器、watchdog.silence_seconds 直方图,并接入 Grafana 告警。
通过该方案,你不仅获得了对轮询停滞的秒级感知能力,更建立了一套可复用、低侵入、高鲁棒性的任务健康保障基座——让“看不见的失败”无所遁形。








