Polars 数据帧中按组高效计算行间时间差：深度解析 over() 窗口函数

聖光之護

发布时间：2025-08-08 23:02:27

899人浏览过

来源于php中文网

原创

Polars 数据帧中按组高效计算行间时间差：深度解析 over() 窗口函数

本教程详细阐述了如何在 Polars DataFrame 中高效地为每个唯一 ID 计算连续会话之间的时间差。通过利用 Polars 强大的 over() 窗口函数结合 diff() 和 dt.total_seconds()，可以避免低效的迭代或 map_groups 操作，从而实现高性能的分组内时间序列分析，并确保首个会话的时间差为零。

引言：按组计算时间差的挑战

在数据分析任务中，我们经常需要处理时间序列数据，并计算同一组内连续事件之间的时间间隔。例如，在用户行为分析中，可能需要计算每个用户两次会话之间的时间差。当数据量庞大时，如何高效地完成这项任务成为一个关键问题。传统的迭代或使用 map、apply 等高级函数的方法在 polars 这样的高性能数据帧库中往往效率低下，因为它无法充分利用 polars 底层的优化能力。

本教程将展示如何使用 Polars 的声明式表达式 API，特别是其强大的 over() 窗口函数，以一种高效且符合 Polars 最佳实践的方式解决这一问题。

Polars 解决方案：利用 over() 窗口函数

Polars 提供了一个名为 over() 的窗口函数，它允许我们在指定的组（partition）内执行聚合或转换操作，而无需显式地使用 group_by()。这对于像计算组内行间差异这样的任务非常有效。

核心思路是：

对时间戳列应用 diff() 函数，计算相邻行之间的时间差。
将时间差转换为总秒数（或其他所需单位）。
使用 over("ID") 将上述操作限制在每个唯一的 ID 组内执行。
处理每个组的第一个元素，其 diff() 结果为 null，通常将其填充为 0。

下面是具体的实现步骤和代码示例：

1. 准备数据

首先，我们创建一个示例 DataFrame，其中包含 ID 和 Timestamp 列。为了确保时间戳能够正确计算，我们需要将其转换为 Polars 的日期时间类型。

零沫AI工具导航

零沫AI工具导航-AI导航新标杆,探索全球实用AI工具

下载

import polars as pl
import pandas as pd

# 创建示例 Pandas DataFrame
data = {
    'ID': ['A', 'A', 'A', 'B', 'B', 'B'],
    'Timestamp': ['2023-01-01 10:00:00', '2023-01-01 10:30:00' ,'2023-01-01 11:00:00', '2023-01-01 12:00:00', '2023-01-01 12:30:00', '2023-01-01 13:00:00']
}

df_pd = pd.DataFrame(data)

# 转换为 Polars DataFrame 并确保 Timestamp 为日期时间类型
sessions_features = pl.from_pandas(df_pd).with_columns(
   pl.col("Timestamp").str.to_datetime()
)

print("原始 Polars DataFrame:")
print(sessions_features)

输出：

原始 Polars DataFrame:
shape: (6, 2)
┌─────┬─────────────────────┐
│ ID  ┆ Timestamp           │
│ --- ┆ ---                 │
│ str ┆ datetime[μs]        │
╞═════╪═════════════════════╡
│ A   ┆ 2023-01-01 10:00:00 │
│ A   ┆ 2023-01-01 10:30:00 │
│ A   ┆ 2023-01-01 11:00:00 │
│ B   ┆ 2023-01-01 12:00:00 │
│ B   ┆ 2023-01-01 12:30:00 │
│ B   ┆ 2023-01-01 13:00:00 │
└─────┴─────────────────────┘

2. 使用 over() 计算时间差

现在，我们使用 with_columns() 结合 over() 来创建新的 time_between_sessions 列。

sessions_with_time_diff = sessions_features.with_columns(
  pl.col("Timestamp")
    .diff() # 计算当前行与上一行的时间差
    .dt.total_seconds() # 将时间差转换为总秒数（结果为Duration类型，dt.total_seconds()转为数值类型）
    .fill_null(0) # 将每个ID组的第一个时间差（为null）填充为0
    .over("ID") # 在每个 'ID' 组内执行上述操作
    .alias("time_between_sessions") # 将新列命名为 'time_between_sessions'
)

print("\n计算时间差后的 Polars DataFrame:")
print(sessions_with_time_diff)

输出：

计算时间差后的 Polars DataFrame:
shape: (6, 3)
┌─────┬─────────────────────┬───────────────────────┐
│ ID  ┆ Timestamp           ┆ time_between_sessions │
│ --- ┆ ---                 ┆ ---                   │
│ str ┆ datetime[μs]        ┆ i64                   │
╞═════╪═════════════════════╪═══════════════════════╡
│ A   ┆ 2023-01-01 10:00:00 ┆ 0                     │
│ A   ┆ 2023-01-01 10:30:00 ┆ 1800                  │
│ A   ┆ 2023-01-01 11:00:00 ┆ 1800                  │
│ B   ┆ 2023-01-01 12:00:00 ┆ 0                     │
│ B   ┆ 2023-01-01 12:30:00 ┆ 1800                  │
│ B   ┆ 2023-01-01 13:00:00 ┆ 1800                  │
└─────┴─────────────────────┴───────────────────────┘

代码解析：

pl.col("Timestamp"): 选取 Timestamp 列进行操作。
.diff(): 这是一个序列方法，用于计算当前元素与其前一个元素之间的差异。在时间戳列上使用时，它会返回一个 Duration 类型的值。对于每个 ID 的第一个时间戳，由于没有前一个元素，其结果将是 null。
.dt.total_seconds(): dt 访问器用于处理日期时间（datetime）和持续时间（duration）类型。total_seconds() 方法将 Duration 类型的值转换为总秒数（整数或浮点数），这使得时间差更易于量化和分析。
.fill_null(0): 在 diff() 操作后，每个 ID 组的第一个会话的时间差会是 null。我们通常希望将其表示为 0，表示这是该组的起始点，没有“之前”的会话。
.over("ID"): 这是关键的窗口函数。它告诉 Polars，在执行 diff().dt.total_seconds().fill_null(0) 链式操作时，要以 ID 列为分组键。这意味着 diff() 和 fill_null() 操作会在每个独立的 ID 分区内独立进行，而不是在整个 DataFrame 上进行。
.alias("time_between_sessions"): 为新生成的列指定一个清晰的名称。

性能考量与最佳实践

避免 map 和 apply： 在 Polars 中，应尽量避免使用 map、apply 或 map_groups 等函数，尤其是在处理大型数据集时。这些函数通常会导致性能瓶颈，因为它们可能需要 Python 解释器的干预，并且无法充分利用 Polars 底层的 Rust 优化和并行计算能力。over() 窗口函数是 Polars 声明式表达式 API 的一部分，它可以在 Rust 层面进行优化和并行化，从而提供卓越的性能。
Polars 表达式 API 的优势： Polars 的表达式 API 允许用户以声明式的方式定义计算逻辑。Polars 引擎可以对这些表达式进行查询优化、谓词下推（predicate pushdown）、列裁剪（column pruning）等操作，从而在执行时达到最佳性能。
数据排序的重要性： diff() 函数依赖于行的顺序。确保在进行时间差计算之前，数据已经按照 ID 和 Timestamp 进行了正确的排序。在上述示例中，数据已经预先按 ID 和 Timestamp 排序，因此无需额外排序步骤。如果原始数据未排序，则需要先使用 sessions_features.sort(["ID", "Timestamp"]) 进行排序。

总结

通过本教程，我们学习了如何利用 Polars 的 over() 窗口函数高效地计算 DataFrame 中按组划分的行间时间差。这种方法不仅代码简洁，更重要的是，它充分利用了 Polars 的高性能特性，避免了传统迭代或 map 函数带来的性能问题。掌握 over() 函数是高效使用 Polars 进行数据分析的关键技能之一，特别是在处理分组时间序列数据时。在实际项目中，优先考虑使用 Polars 提供的内置表达式和窗口函数，将是提升数据处理效率和代码质量的重要一步。

Python环境变量怎么配置_Path路径设置与常见报错解决方法

使用 PyPDF 合并多份 PDF 的页面为单页网格布局

Tkinter 屏幕录制器：正确实现启动与停止功能的面向对象教程

Python中按空白单元格分组求和：高效实现Excel类似累计汇总

Python Flask怎么做WebSocket_Flask-SocketIO事件驱动实现双向低延迟实时聊天通信

相关专题

C++系统编程内存管理_C++系统编程怎么与Rust竞争内存安全

C++系统编程中的内存管理是指对程序运行时内存的申请、使用和释放进行精细控制的机制，涵盖了栈、堆、静态区等不同区域，开发者需要通过new/delete、智能指针或内存池等方式管理动态内存，以避免内存泄漏、野指针等问题，确保程序高效稳定运行。它核心在于开发者对低层内存有完全控制权，带来灵活性，但也伴随高责任，是C++性能优化的关键。

2025.12.22

Rust异步编程与Tokio运行时实战

本专题聚焦 Rust 语言的异步编程模型，深入讲解 async/await 机制与 Tokio 运行时的核心原理。内容包括异步任务调度、Future 执行模型、并发安全、网络 IO 编程以及高并发场景下的性能优化。通过实战示例，帮助开发者使用 Rust 构建高性能、低延迟的后端服务与网络应用。

2026.02.11

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

227

2026.03.05

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1089

2024.03.01

sort排序函数用法

sort排序函数的用法：1、对列表进行排序，默认情况下，sort函数按升序排序，因此最终输出的结果是按从小到大的顺序排列的；2、对元组进行排序，默认情况下，sort函数按元素的大小进行排序，因此最终输出的结果是按从小到大的顺序排列的；3、对字典进行排序，由于字典是无序的，因此排序后的结果仍然是原来的字典，使用一个lambda表达式作为key参数的值，用于指定排序的依据。

409

2023.09.04