
本文详解 hadoop 单机/伪分布式环境下 wordcount 作业卡在“running job”状态的常见原因,重点介绍如何通过 yarn web ui 和命令行日志工具实时监控作业执行状态,快速定位卡顿根源。
本文详解 hadoop 单机/伪分布式环境下 wordcount 作业卡在“running job”状态的常见原因,重点介绍如何通过 yarn web ui 和命令行日志工具实时监控作业执行状态,快速定位卡顿根源。
当你运行 hadoop jar wordcount.jar WordCount /my_data/book1.txt /my_data/output_wordcount 后,控制台输出 Running job: job_XXXX_XXXX 并长时间停滞(如持续 5 分钟以上),这并不必然表示程序出错,但确实意味着作业尚未完成或已陷入异常等待状态。关键在于:Hadoop 的 MapReduce 作业生命周期包含多个阶段(提交、调度、分配容器、启动 Mapper/Reducer、Shuffle、Commit 等),仅凭终端日志无法判断当前卡在哪一环节。必须借助 YARN 的监控能力进行深度诊断。
✅ 第一步:访问 YARN Web UI 实时查看作业状态
日志中明确提示了追踪地址:
The url to track the job: http://my-computer-05:8088/proxy/application_1676124615395_0004/
请在浏览器中打开该 URL(确保 my-computer-05 可被解析,若失败,请改用 http://localhost:8088/proxy/application_1676124615395_0004/)。进入后重点关注以下区域:
- Application Overview:确认 Application Status 是否为 RUNNING;检查 Progress 进度条是否为 0%(可能未启动)或长期停滞(如 10%);
- Containers 标签页:查看是否成功分配了 Container(如 Container ID: container_1676124615395_0004_01_000001),若数量为 0,说明 ResourceManager 未调度到 NodeManager(常见于资源不足或 NM 未启动);
- Logs 按钮(位于每个 Attempt 行末):点击可查看 Mapper 或 Reducer 的完整 stderr/stdout 日志——这是定位核心问题的黄金信息源(例如:ClassNotFoundException、NullPointerException、OutOfMemoryError 或输入路径不存在等错误均会在此处清晰暴露)。
⚠️ 注意:若页面打不开,请先验证 YARN 服务状态:
~/hadoop/bin/yarn node -list # 应返回至少一个 ACTIVE 状态的 NodeManager ~/hadoop/bin/yarn top # 查看实时资源使用情况
✅ 第二步:使用 yarn logs 命令行获取结构化日志
在另一个终端中,直接拉取应用日志(无需依赖 Web UI):
yarn logs -applicationId application_1676124615395_0004
该命令将输出完整的容器日志流。强烈建议配合 grep 快速定位关键线索:
# 查找 ERROR 或 Exception 关键字 yarn logs -applicationId application_1676124615395_0004 | grep -i "error\|exception\|fail\|exception" # 查看 Mapper 阶段是否启动(搜索 "map" 相关日志) yarn logs -applicationId application_1676124615395_0004 | grep -i "map\|mapper"
若日志中出现类似 Input path does not exist: hdfs://localhost:9000/my_data/book1.txt,说明 HDFS 路径错误(注意检查大小写、前缀 /);若出现 java.lang.OutOfMemoryError: Java heap space,则需调大容器内存(修改 yarn-site.xml 中 yarn.nodemanager.resource.memory-mb 和 mapred-site.xml 中 mapreduce.map.memory.mb)。
? 补充排查要点(针对你的环境)
-
JDK 兼容性警告:你看到的 Illegal reflective access 是 Hadoop 2.7.3 与 JDK 11+ 的已知兼容性问题(非致命错误),不影响功能,但建议在 hadoop-env.sh 中添加:
export HADOOP_OPTS="--add-opens=java.base/java.lang=ALL-UNNAMED --add-opens=java.base/java.net=ALL-UNNAMED"
- 输出目录必须不存在:/my_data/output_wordcount 在作业启动前不能存在,否则会抛出 FileAlreadyExistsException —— YARN 日志中会明确报错,但终端不显示。
-
代码潜在风险:你提供的 WordCount.java 中 replaceAll("[^a-z 0-9A-Z]","") 可能导致空字符串被写入(如纯标点行),进而引发 Reducer 空 key 处理异常。生产环境建议增加空值校验:
String token = itr.nextToken().toLowerCase().replaceAll("[^a-z0-9]", ""); if (!token.isEmpty()) { word.set(token); context.write(word, one); }
✅ 总结:高效诊断流程图
- 看 Web UI → 判断作业是否被调度、容器是否启动;
- 查 yarn logs → 定位具体错误栈(90% 问题在此暴露);
- 验基础配置 → 确保 HDFS 路径有效、输出目录不存在、JDK 参数适配;
- 审代码逻辑 → 排查空输入、资源超限等隐性陷阱。
只要遵循此流程,即可在 2 分钟内区分“作业正在缓慢处理大数据”与“作业已死锁/崩溃”,彻底告别盲目等待。










