PySpark 中基于时间范围关联表并计算区间平均值的完整教程

心靈之曲

发布时间：2026-03-01 08:58:11

522人浏览过

来源于php中文网

原创

PySpark 中基于时间范围关联表并计算区间平均值的完整教程

本文介绍如何在 pyspark 中通过条件联结（range join）将两个表按时间范围对齐，并对匹配的时间点数据计算平均值，最终回填至主表——适用于时序分析、滑动窗口聚合等典型场景。

本文介绍如何在 pyspark 中通过条件联结（range join）将两个表按时间范围对齐，并对匹配的时间点数据计算平均值，最终回填至主表——适用于时序分析、滑动窗口聚合等典型场景。

在实际数据处理中，常需根据一个“控制表”（如定义时间窗口的 Table 1）对另一个“事实表”（如带时间戳的观测值 Table 2）进行范围过滤与聚合。本例目标明确：对 Table 1 中每个 [StartTime, StopTime] 区间，在 Table 2 中筛选出所有满足 StartTime ≤ Timestamp ≤ StopTime 的记录，计算其 Value 列的算术平均值，并将结果作为新列 AverageValue 写回 Table 1。

关键在于：不能使用窗口函数 rangeBetween() 直接引用另一张表的列（如 table_1.StartTime），因为 PySpark 窗口规范仅支持常量或当前行的列值，不支持跨表动态边界。正确解法是采用范围联结（Range Join） + 分组聚合，这是 PySpark 处理此类“一对多区间匹配”问题的标准范式。

扣子编程

扣子推出的AI编程开发工具

下载

✅ 正确实现步骤

执行带条件的左联结（Left Join）：以 Table 1 为主表，将 Table 2 中落在 [StartTime, StopTime] 内的所有行关联进来；
按原始窗口分组（GroupBy）：使用 StartTime 和 StopTime 作为分组键，确保每个窗口独立聚合；
聚合计算平均值：使用 F.avg("Value") 并重命名为 "AverageValue"；
（可选）与原表 join 或 select 保留其他字段，完成结果回填。

以下是完整可运行代码示例：

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("RangeAvg").getOrCreate()

# 构造示例数据（Table 1）
data1 = [(100, 140)]
df1 = spark.createDataFrame(data1, ["StartTime", "StopTime"])

# 构造示例数据（Table 2）
data2 = [
    (80, 15.0), (90, 10.0), (100, 13.0), 
    (110, 9.0), (120, 19.0), (130, 38.0), 
    (140, 1.0), (150, 39.0)
]
df2 = spark.createDataFrame(data2, ["Timestamp", "Value"])

# ✅ 核心逻辑：范围联结 + 分组聚合
result = (df1
          .join(df2, 
                on=(df1["StartTime"] <= df2["Timestamp"]) & 
                   (df1["StopTime"] >= df2["Timestamp"]), 
                how="left")
          .groupBy("StartTime", "StopTime")
          .agg(F.round(F.avg("Value"), 2).alias("AverageValue")))

result.show()
# 输出：
# +---------+--------+------------+
# |StartTime|StopTime|AverageValue|
# +---------+--------+------------+
# |      100|     140|        16.0|
# +---------+--------+------------+

⚠️ 注意事项与最佳实践

性能提示：范围联结在大数据量下可能产生笛卡尔积膨胀（尤其当窗口宽、数据密时）。若性能成为瓶颈，可先对 df2 按 Timestamp 排序并使用 broadcast 小表，或改用 asofJoin（Spark 3.5+ 支持）配合排序优化；
空值处理：若某窗口无匹配记录，F.avg() 返回 null。如需默认值（如 0.0），可用 F.coalesce(F.avg("Value"), F.lit(0.0))；
边界包含性：本例使用 = 表示闭区间；若需半开区间（如 [start, stop)），请调整为 df1["StartTime"]
多窗口扩展：Table 1 含多行时（多个时间窗口），上述逻辑天然支持并行处理，无需循环；
类型一致性：确保 StartTime/StopTime 与 Timestamp 数据类型一致（推荐均为 LongType 或 IntegerType），避免隐式转换失败。

该方案简洁、健壮、符合 Spark 的分布式计算范式，是处理“按外部定义区间聚合”类任务的推荐实践。

相关标签:

分布式数据类型 NULL 常量 select timestamp 循环 table spark

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：高效生成Pandas中多行间所有两两组合并聚合计数下一篇：暂无

作者最新文章

如何在 PHP 中使用 kafka-php 库创建 Kafka 主题？

2026-02-28 15:55

Go 中接口变量的类型本质与解引用机制详解

2026-02-28 15:56

抖音封号后抖音来客如何解绑

2026-02-28 16:12

Arrow 1.0— Quiver AI推出的SVG原生AI生成模型

2026-02-28 16:13

《PUBG：BLINDSPOT》整合亚洲服务器

2026-02-28 16:26

《近几灵务局》登陆Switch 2 好评物理暴力驱灵冒险

2026-02-28 16:34

华为手机美颜功能如何开启视频拍摄

2026-02-28 16:41

《杀戮尖塔2》官方答疑平衡性设计偏向爽快体验着重于测试

2026-02-28 16:48

星语相机app怎么使用

2026-02-28 16:58

Java中实现用户输入数字的范围校验与负数转正处理

2026-02-28 17:06

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

什么是分布式

分布式是一种计算和数据处理的方式，将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容，供大家免费下载体验。

402

2023.08.11

分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容，供大家免费下载体验。

249

2023.10.07

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

312

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

223

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

2026.02.12

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

248

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

947

2024.03.01

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1560

2023.10.24

Golang 测试体系与代码质量保障：工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链（如go test）、单元测试、集成测试及端到端测试实践，结合代码覆盖率分析、静态代码扫描（如go vet）和动态分析工具，建立全链路质量监控机制。通过自动化测试框架、持续集成（CI）流水线配置及代码审查规范，实现测试用例管理、缺陷追踪与质量门禁控制，确保代码健壮性与可维护性，为高可靠性工程系统提供质量保障。

2026.02.28

热门下载

网站特效

网站源码

网站素材

前端模板