0

0

PySpark 自定义 Logger 无法输出 INFO 日志的解决方案

心靈之曲

心靈之曲

发布时间:2026-02-17 23:55:02

|

613人浏览过

|

来源于php中文网

原创

PySpark 自定义 Logger 无法输出 INFO 日志的解决方案

PySpark 中通过 Log4j 获取的自定义 logger(如 'Example Processor')即使调用 setLevel(Level.INFO),INFO 及以下日志仍不显示,根本原因在于 Log4j 的根记录器(root logger)默认级别为 WARN,会拦截并屏蔽子 logger 的低级别日志输出。

pyspark 中通过 log4j 获取的自定义 logger(如 `'example processor'`)即使调用 `setlevel(level.info)`,info 及以下日志仍不显示,根本原因在于 log4j 的**根记录器(root logger)默认级别为 warn**,会拦截并屏蔽子 logger 的低级别日志输出。

在 PySpark 中,日志系统基于 Apache Log4j(1.x 或 2.x,取决于 Spark 版本),其采用层级式日志控制机制:每个 logger(如 'Example Processor')的生效日志级别,不仅取决于自身 setLevel() 设置,更受限于其祖先 logger(尤其是 root logger)的级别阈值。若 root logger 级别为 WARN,则所有 INFO、DEBUG、TRACE 日志在到达 appender 前即被丢弃——无论子 logger 是否已设为 INFO。

因此,仅执行:

log4jLogger = self.spark.sparkContext._jvm.org.apache.log4j
self.log = log4jLogger.LogManager.getLogger('Example Processor')
self.log.setLevel(log4jLogger.Level.INFO)  # ✅ 正确设置子 logger 级别

不充分的。必须同步确保 root logger 的级别不低于 INFO,否则日志流会在根节点被截断。

亿众购物系统
亿众购物系统

一套设计完善、高效的web商城解决方案,独有SQL注入防范、对非法操作者锁定IP及记录功能,完整详细的记录了非法操作情况,管理员可以随时查看网站安全日志以及解除系统自动锁定的IP等前台简介:  1)系统为会员制购物,无限会员级别。  2)会员自动升级、相应级别所享有的折扣不同。  3)产品可在缺货时自动隐藏。  4)自动统计所有分类中商品数量,并在商品分类后面显示。  5)邮件列表功能,可在线订阅

下载

✅ 正确配置方式(推荐)

from pyspark.sql import SparkSession

self.spark = SparkSession.builder \
    .master("local[1]") \
    .appName("DemoProcessor") \
    .getOrCreate()

# 获取 Log4j JVM 类
log4j = self.spark.sparkContext._jvm.org.apache.log4j

# 1. 设置自定义 logger(推荐使用带包名的命名空间,避免冲突)
self.log = log4j.LogManager.getLogger("com.example.ExampleProcessor")

# 2. 关键:显式提升 root logger 级别(必须!)
root_logger = log4j.LogManager.getRootLogger()
root_logger.setLevel(log4j.Level.INFO)  # ? 核心修复步骤

# 3. (可选)验证当前 root 级别
print(f"Root logger level: {root_logger.getLevel()}")

# 4. 测试日志输出
self.log.info("Info Message!")   # ✅ 现在可见
self.log.warn("Warn Message!")   # ✅
self.log.error("Error Message!") # ✅

? 注意:sc.setLogLevel("INFO")(如 spark.sparkContext.setLogLevel("INFO"))仅影响 Spark 内部组件日志(如 DAGScheduler、Executor),对用户创建的 Log4j logger 完全无效。它修改的是 Spark 封装层的日志桥接配置,而非底层 Log4j 的 root logger。

⚠️ 其他常见陷阱与建议

  • 避免使用纯名称 logger(如 'Example Processor'):空格和特殊字符可能引发 Log4j 解析异常;建议使用符合 Java 包名规范的命名(如 "com.example.processor")。
  • 不要依赖 DEBUG 级别“碰巧生效”:DEBUG 能打印 INFO 是因为 DEBUG
  • Log4j 2.x 用户注意:Spark 3.0+ 默认使用 Log4j 2,其 API 略有不同(如 org.apache.logging.log4j)。若遇到 ClassNotFoundException,请确认 Spark 版本并调整导入路径。
  • 容器/集群环境补充:YARN/K8s 中还需检查 log4j.properties 配置文件是否强制覆盖了 root 级别(例如 log4j.rootLogger=WARN, console),此时需在 --files 中挂载自定义配置或通过 spark.driver.extraJavaOptions 覆盖。

✅ 总结

PySpark 自定义 Log4j logger 不输出 INFO 日志,本质是 Log4j 的 root logger 级别限制所致,而非子 logger 设置失败。解决只需两步:

  1. log4j.LogManager.getRootLogger().setLevel(Level.INFO)
  2. your_logger.setLevel(Level.INFO)

二者缺一不可。牢记:Log4j 日志传播遵循“取高者”原则(实际是“取严格者”)——最终生效级别 = max(子logger.level, 所有祖先.level),而 root 是最终祖先。 合理配置 root 级别,是掌控 PySpark 日志可见性的关键前提。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
console接口是干嘛的
console接口是干嘛的

console接口是一种用于在计算机命令行或浏览器开发工具中输出信息的工具,提供了一种简单的方式来记录和查看应用程序的输出结果和调试信息。本专题为大家提供console接口相关的各种文章、以及下载和课程。

419

2023.08.08

console.log是什么
console.log是什么

console.log 是 javascript 函数,用于在浏览器控制台中输出信息,便于调试和故障排除。想了解更多console.log的相关内容,可以阅读本专题下面的文章。

525

2024.05.29

常用的数据库软件
常用的数据库软件

常用的数据库软件有MySQL、Oracle、SQL Server、PostgreSQL、MongoDB、Redis、Cassandra、Hadoop、Spark和Amazon DynamoDB。更多关于数据库软件的内容详情请看本专题下面的文章。php中文网欢迎大家前来学习。

994

2023.11.02

apache是什么意思
apache是什么意思

Apache是Apache HTTP Server的简称,是一个开源的Web服务器软件。是目前全球使用最广泛的Web服务器软件之一,由Apache软件基金会开发和维护,Apache具有稳定、安全和高性能的特点,得益于其成熟的开发和广泛的应用实践,被广泛用于托管网站、搭建Web应用程序、构建Web服务和代理等场景。本专题为大家提供了Apache相关的各种文章、以及下载和课程,希望对各位有所帮助。

417

2023.08.23

apache启动失败
apache启动失败

Apache启动失败可能有多种原因。需要检查日志文件、检查配置文件等等。想了解更多apache启动的相关内容,可以阅读本专题下面的文章。

937

2024.01.16

Java 流式处理与 Apache Kafka 实战
Java 流式处理与 Apache Kafka 实战

本专题专注讲解 Java 在流式数据处理与消息队列系统中的应用,系统讲解 Apache Kafka 的基础概念、生产者与消费者模型、Kafka Streams 与 KSQL 流式处理框架、实时数据分析与监控,结合实际业务场景,帮助开发者构建 高吞吐量、低延迟的实时数据流管道,实现高效的数据流转与处理。

107

2026.02.04

pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法
pixiv网页版官网登录与阅读指南_pixiv官网直达入口与在线访问方法

本专题系统整理pixiv网页版官网入口及登录访问方式,涵盖官网登录页面直达路径、在线阅读入口及快速进入方法说明,帮助用户高效找到pixiv官方网站,实现便捷、安全的网页端浏览与账号登录体验。

473

2026.02.13

微博网页版主页入口与登录指南_官方网页端快速访问方法
微博网页版主页入口与登录指南_官方网页端快速访问方法

本专题系统整理微博网页版官方入口及网页端登录方式,涵盖首页直达地址、账号登录流程与常见访问问题说明,帮助用户快速找到微博官网主页,实现便捷、安全的网页端登录与内容浏览体验。

158

2026.02.13

Flutter跨平台开发与状态管理实战
Flutter跨平台开发与状态管理实战

本专题围绕Flutter框架展开,系统讲解跨平台UI构建原理与状态管理方案。内容涵盖Widget生命周期、路由管理、Provider与Bloc状态管理模式、网络请求封装及性能优化技巧。通过实战项目演示,帮助开发者构建流畅、可维护的跨平台移动应用。

64

2026.02.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

相关下载

更多

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号