0

0

PySpark 中基于时间范围关联表并计算区间平均值的完整教程

心靈之曲

心靈之曲

发布时间:2026-03-01 08:58:11

|

522人浏览过

|

来源于php中文网

原创

PySpark 中基于时间范围关联表并计算区间平均值的完整教程

本文介绍如何在 pyspark 中通过条件联结(range join)将两个表按时间范围对齐,并对匹配的时间点数据计算平均值,最终回填至主表——适用于时序分析、滑动窗口聚合等典型场景。

本文介绍如何在 pyspark 中通过条件联结(range join)将两个表按时间范围对齐,并对匹配的时间点数据计算平均值,最终回填至主表——适用于时序分析、滑动窗口聚合等典型场景。

在实际数据处理中,常需根据一个“控制表”(如定义时间窗口的 Table 1)对另一个“事实表”(如带时间戳的观测值 Table 2)进行范围过滤与聚合。本例目标明确:对 Table 1 中每个 [StartTime, StopTime] 区间,在 Table 2 中筛选出所有满足 StartTime ≤ Timestamp ≤ StopTime 的记录,计算其 Value 列的算术平均值,并将结果作为新列 AverageValue 写回 Table 1。

关键在于:不能使用窗口函数 rangeBetween() 直接引用另一张表的列(如 table_1.StartTime),因为 PySpark 窗口规范仅支持常量或当前行的列值,不支持跨表动态边界。正确解法是采用范围联结(Range Join) + 分组聚合,这是 PySpark 处理此类“一对多区间匹配”问题的标准范式。

扣子编程
扣子编程

扣子推出的AI编程开发工具

下载

✅ 正确实现步骤

  1. 执行带条件的左联结(Left Join):以 Table 1 为主表,将 Table 2 中落在 [StartTime, StopTime] 内的所有行关联进来;
  2. 按原始窗口分组(GroupBy):使用 StartTime 和 StopTime 作为分组键,确保每个窗口独立聚合;
  3. 聚合计算平均值:使用 F.avg("Value") 并重命名为 "AverageValue";
  4. (可选)与原表 join 或 select 保留其他字段,完成结果回填。

以下是完整可运行代码示例:

from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("RangeAvg").getOrCreate()

# 构造示例数据(Table 1)
data1 = [(100, 140)]
df1 = spark.createDataFrame(data1, ["StartTime", "StopTime"])

# 构造示例数据(Table 2)
data2 = [
    (80, 15.0), (90, 10.0), (100, 13.0), 
    (110, 9.0), (120, 19.0), (130, 38.0), 
    (140, 1.0), (150, 39.0)
]
df2 = spark.createDataFrame(data2, ["Timestamp", "Value"])

# ✅ 核心逻辑:范围联结 + 分组聚合
result = (df1
          .join(df2, 
                on=(df1["StartTime"] <= df2["Timestamp"]) & 
                   (df1["StopTime"] >= df2["Timestamp"]), 
                how="left")
          .groupBy("StartTime", "StopTime")
          .agg(F.round(F.avg("Value"), 2).alias("AverageValue")))

result.show()
# 输出:
# +---------+--------+------------+
# |StartTime|StopTime|AverageValue|
# +---------+--------+------------+
# |      100|     140|        16.0|
# +---------+--------+------------+

⚠️ 注意事项与最佳实践

  • 性能提示:范围联结在大数据量下可能产生笛卡尔积膨胀(尤其当窗口宽、数据密时)。若性能成为瓶颈,可先对 df2 按 Timestamp 排序并使用 broadcast 小表,或改用 asofJoin(Spark 3.5+ 支持)配合排序优化;
  • 空值处理:若某窗口无匹配记录,F.avg() 返回 null。如需默认值(如 0.0),可用 F.coalesce(F.avg("Value"), F.lit(0.0));
  • 边界包含性:本例使用 = 表示闭区间;若需半开区间(如 [start, stop)),请调整为 df1["StartTime"]
  • 多窗口扩展:Table 1 含多行时(多个时间窗口),上述逻辑天然支持并行处理,无需循环;
  • 类型一致性:确保 StartTime/StopTime 与 Timestamp 数据类型一致(推荐均为 LongType 或 IntegerType),避免隐式转换失败。

该方案简洁、健壮、符合 Spark 的分布式计算范式,是处理“按外部定义区间聚合”类任务的推荐实践。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
什么是分布式
什么是分布式

分布式是一种计算和数据处理的方式,将计算任务或数据分散到多个计算机或节点中进行处理。本专题为大家提供分布式相关的文章、下载、课程内容,供大家免费下载体验。

402

2023.08.11

分布式和微服务的区别
分布式和微服务的区别

分布式和微服务的区别在定义和概念、设计思想、粒度和复杂性、服务边界和自治性、技术栈和部署方式等。本专题为大家提供分布式和微服务相关的文章、下载、课程内容,供大家免费下载体验。

249

2023.10.07

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

312

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

223

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

97

2026.02.12

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

248

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

947

2024.03.01

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1560

2023.10.24

Golang 测试体系与代码质量保障:工程级可靠性建设
Golang 测试体系与代码质量保障:工程级可靠性建设

Go语言测试体系与代码质量保障聚焦于构建工程级可靠性系统。本专题深入解析Go的测试工具链(如go test)、单元测试、集成测试及端到端测试实践,结合代码覆盖率分析、静态代码扫描(如go vet)和动态分析工具,建立全链路质量监控机制。通过自动化测试框架、持续集成(CI)流水线配置及代码审查规范,实现测试用例管理、缺陷追踪与质量门禁控制,确保代码健壮性与可维护性,为高可靠性工程系统提供质量保障。

6

2026.02.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号