PySpark 中按分组用最后一个非空值填充空值（保留中间非空值）

花韻仙語

发布时间：2026-02-11 09:52:13

634人浏览过

来源于php中文网

原创

PySpark 中按分组用最后一个非空值填充空值（保留中间非空值）

本文介绍如何在 pyspark 中对 dataframe 按分区（group）进行前向/后向回填（backfill），仅将每组内 null 值替换为该组中**排序后最后一个非空值**，同时严格保留所有原始非空值不被覆盖。

在数据清洗与特征工程中，常需对缺失值进行智能填充。一种典型场景是：按某个键（如 ID）分组后，将每个分组内所有 null 值统一替换为该组中排序顺序上最后一个出现的非空值（即“向后回填”），但不能覆盖组内已存在的非空值——这正是标准 last() 窗口函数直接使用时容易出错的地方：若未加条件控制，它会将整列都替换为最后一个值，失去原始有效数据。

要实现真正的“仅填充 null、保留非 null”，核心思路是：结合条件判断（when/otherwise）与带方向的窗口聚合。具体步骤如下：

✅ 正确做法：条件式回填（Backfill with Conditional Logic）

使用 pyspark.sql.functions.when() 判断当前行是否为 null；若是，则调用 last(..., ignoreNulls=True) 在指定窗口内查找最后一个非空值；否则，原样保留该值。

关键细节：

窗口需按业务逻辑排序（如时间戳、序号等），确保“最后一个”语义明确；
rowsBetween(0, Window.unboundedFollowing) 表示从当前行开始，向后扫描至分区末尾（即“向后找最后一个非空值”）；
ignoreNulls=True 是必须参数，否则 last() 遇到 null 会跳过或返回 null；
使用 Window.unboundedFollowing 替代 sys.maxsize，更语义清晰且跨平台安全。

以下是完整可运行示例：

久久企业网站后台管理系统1.0

一、功能简介本软件完全适应大、中、小型网站建设需要，让您用很便宜的虚拟主机空间也可以开通4个独立的网站！久久企业网站后台管理系统各种版本开发基础架构均为php+mysql+div+css+伪静态，迎合搜索引擎排名的喜好。另外值得一提的是本站特色的TAG系统可为您的网站做出无限分类，不用任何设置全站ULR伪静态！本建站系统除了有产品发布、新闻（软文）发布、订单管理系统和留言反馈等一些最基本的功能之外

下载

from pyspark.sql import SparkSession
from pyspark.sql import functions as F
from pyspark.sql.window import Window

spark = SparkSession.builder.appName("BackfillExample").getOrCreate()

# 构造示例数据
data = [
    ("grp1", None),
    ("grp1", 4),
    ("grp1", 5),
    ("grp2", None),
    ("grp2", 6),
    ("grp2", None),
    ("grp2", 7)
]
df = spark.createDataFrame(data, ["ID", "Value"])

# 定义窗口：按 ID 分组，按 Value 升序（注意：实际应按时间列排序！此处仅为演示）
# ⚠️ 重要：真实场景中 order_by_column 应为时间戳、序列号等有明确先后关系的列
window_spec = Window.partitionBy("ID").orderBy("Value").rowsBetween(0, Window.unboundedFollowing)

# 执行条件回填
filled_df = df.withColumn(
    "FilledValue",
    F.when(
        F.col("Value").isNull(),
        F.last(F.col("Value"), ignoreNulls=True).over(window_spec)
    ).otherwise(F.col("Value"))
)

filled_df.select("ID", "Value", "FilledValue").show()

输出结果：

+----+-----+-----------+
|  ID|Value|FilledValue|
+----+-----+-----------+
|grp1| null|          5|
|grp1|    4|          4|
|grp1|    5|          5|
|grp2| null|          7|
|grp2|    6|          6|
|grp2| null|          7|
|grp2|    7|          7|
+----+-----+-----------+

✅ 完全匹配预期目标：grp1 的首 null 填为 5（该组最大值），grp2 的两个 null 均填为 7（该组末尾非空值），中间的 6 被完整保留。

⚠️ 注意事项与最佳实践

排序列至关重要：orderBy() 必须基于一个能反映数据时序或逻辑顺序的列（如 event_time, seq_id）。若错误地按 Value 排序（如本例仅为示意），可能导致语义偏差。生产环境请务必校验排序逻辑。
避免 ignoreNulls=False：默认 last() 不忽略 null，会导致结果不可控；显式传入 ignoreNulls=True 是安全前提。
性能提示：rowsBetween(0, unboundedFollowing) 是高效操作，无需全分区扫描；但若数据量极大且分组极不均衡，可考虑预过滤或采样验证逻辑。
扩展性建议：若需“向前回填”（用第一个非空值填充后续 null），只需将窗口改为 rowsBetween(Window.unboundedPreceding, 0) 并配合 first(..., ignoreNulls=True)。

通过 when + last(..., ignoreNulls=True) 的组合，你既能精准控制填充行为，又能充分利用 Spark 窗口函数的分布式计算能力，实现健壮、可维护的数据回填逻辑。

相关标签:

sql 分布式 NULL Conditional spark

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何用键盘控制 Python Turtle 移动（无需 keyboard 库）下一篇：Python 多虚拟环境并存时的管理策略

作者最新文章

Selenium 与 Froxy 代理集成的正确配置方法

2026-02-10 16:20

html5如何画一个三角形

2026-02-10 16:21

九牧之野如何配将阵容最强阵容搭配攻略

2026-02-10 16:27

Web3j Solidity 代码生成后编译失败的解决方案

2026-02-10 16:45

如何让程序在用户输入无效命令时重复提示而非退出

2026-02-10 17:01

被取消的《指环王》MMO游戏截图泄露！《古墓丽影》团队制作

2026-02-10 17:23

战火勋章平民最强阵容一览表战火勋章平民强力搭配

2026-02-10 17:30

html背景图片如何只显示一张图片大小

2026-02-10 17:30

如何提取 DataFrame 中末尾连续同号段（含零过渡）的所有行

2026-02-10 17:43

乱斗西游2平民最强阵容 0氪金阵容搭配推荐

2026-02-10 17:52

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

数据分析工具有哪些

数据分析工具有Excel、SQL、Python、R、Tableau、Power BI、SAS、SPSS和MATLAB等。详细介绍：1、Excel，具有强大的计算和数据处理功能；2、SQL，可以进行数据查询、过滤、排序、聚合等操作；3、Python，拥有丰富的数据分析库；4、R，拥有丰富的统计分析库和图形库；5、Tableau，提供了直观易用的用户界面等等。

900

2023.10.12