Hadoop WordCount 作业长时间无响应？快速诊断与排查指南

霞舞

发布时间：2026-02-20 20:02:05

627人浏览过

来源于php中文网

原创

Hadoop WordCount 作业长时间无响应？快速诊断与排查指南

本文详解 hadoop 单机/伪分布式环境下 wordcount 作业卡在“running job”状态的常见原因，重点介绍如何通过 yarn web ui 和命令行日志工具实时监控作业执行状态，快速定位卡顿根源。

本文详解 hadoop 单机/伪分布式环境下 wordcount 作业卡在“running job”状态的常见原因，重点介绍如何通过 yarn web ui 和命令行日志工具实时监控作业执行状态，快速定位卡顿根源。

当你运行 hadoop jar wordcount.jar WordCount /my_data/book1.txt /my_data/output_wordcount 后，控制台输出 Running job: job_XXXX_XXXX 并长时间停滞（如持续 5 分钟以上），这并不必然表示程序出错，但确实意味着作业尚未完成或已陷入异常等待状态。关键在于：Hadoop 的 MapReduce 作业生命周期包含多个阶段（提交、调度、分配容器、启动 Mapper/Reducer、Shuffle、Commit 等），仅凭终端日志无法判断当前卡在哪一环节。必须借助 YARN 的监控能力进行深度诊断。

✅ 第一步：访问 YARN Web UI 实时查看作业状态

日志中明确提示了追踪地址：

The url to track the job: http://my-computer-05:8088/proxy/application_1676124615395_0004/

请在浏览器中打开该 URL（确保 my-computer-05 可被解析，若失败，请改用 http://localhost:8088/proxy/application_1676124615395_0004/）。进入后重点关注以下区域：

Application Overview：确认 Application Status 是否为 RUNNING；检查 Progress 进度条是否为 0%（可能未启动）或长期停滞（如 10%）；
Containers 标签页：查看是否成功分配了 Container（如 Container ID: container_1676124615395_0004_01_000001），若数量为 0，说明 ResourceManager 未调度到 NodeManager（常见于资源不足或 NM 未启动）；
Logs 按钮（位于每个 Attempt 行末）：点击可查看 Mapper 或 Reducer 的完整 stderr/stdout 日志——这是定位核心问题的黄金信息源（例如：ClassNotFoundException、NullPointerException、OutOfMemoryError 或输入路径不存在等错误均会在此处清晰暴露）。

⚠️ 注意：若页面打不开，请先验证 YARN 服务状态：

Heeyo
Heeyo：AI儿童启蒙陪伴师，风靡于硅谷的儿童AI导师和玩伴

下载
~/hadoop/bin/yarn node -list  # 应返回至少一个 ACTIVE 状态的 NodeManager
~/hadoop/bin/yarn top       # 查看实时资源使用情况

✅ 第二步：使用 yarn logs 命令行获取结构化日志

在另一个终端中，直接拉取应用日志（无需依赖 Web UI）：

yarn logs -applicationId application_1676124615395_0004

该命令将输出完整的容器日志流。强烈建议配合 grep 快速定位关键线索：

# 查找 ERROR 或 Exception 关键字
yarn logs -applicationId application_1676124615395_0004 | grep -i "error\|exception\|fail\|exception"

# 查看 Mapper 阶段是否启动（搜索 "map" 相关日志）
yarn logs -applicationId application_1676124615395_0004 | grep -i "map\|mapper"

若日志中出现类似 Input path does not exist: hdfs://localhost:9000/my_data/book1.txt，说明 HDFS 路径错误（注意检查大小写、前缀 /）；若出现 java.lang.OutOfMemoryError: Java heap space，则需调大容器内存（修改 yarn-site.xml 中 yarn.nodemanager.resource.memory-mb 和 mapred-site.xml 中 mapreduce.map.memory.mb）。

? 补充排查要点（针对你的环境）

JDK 兼容性警告：你看到的 Illegal reflective access 是 Hadoop 2.7.3 与 JDK 11+ 的已知兼容性问题（非致命错误），不影响功能，但建议在 hadoop-env.sh 中添加：
```
export HADOOP_OPTS="--add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.net=ALL-UNNAMED"
```
输出目录必须不存在：/my_data/output_wordcount 在作业启动前不能存在，否则会抛出 FileAlreadyExistsException —— YARN 日志中会明确报错，但终端不显示。
代码潜在风险：你提供的 WordCount.java 中 replaceAll("[^a-z 0-9A-Z]","") 可能导致空字符串被写入（如纯标点行），进而引发 Reducer 空 key 处理异常。生产环境建议增加空值校验：
```
String token = itr.nextToken().toLowerCase().replaceAll("[^a-z0-9]", "");
if (!token.isEmpty()) {
    word.set(token);
    context.write(word, one);
}
```