Polars 中对连续 n 行进行分组聚合的惯用方法

聖光之護

发布时间：2026-01-30 10:21:18

589人浏览过

来源于php中文网

原创

Polars 中对连续 n 行进行分组聚合的惯用方法

在 polars 中，对 dataframe 按固定行数（如每 n 行）进行滑动或分段聚合，最简洁、高效且符合惯用法的方式是结合 `with_row_index()` 与 `group_by_dynamic()`，并显式将索引列转为有符号整型（如 `int32`）。

当需要将大型 DataFrame（例如百万级行、多列）按连续 n 行（如 n = 100）划分为非重叠段并执行聚合（如均值、求和、统计量等）时，group_by_dynamic(index_column=..., every="ni") 是 Polars 官方推荐且性能最优的方案——它专为基于索引/时间的动态分组设计，底层高度优化，支持并行执行，远优于手动切片或 group_by(pl.int_range().floor_div(n)) 等替代写法。

你最初的实现逻辑正确，但可进一步简化与健壮化。推荐写法如下：

import polars as pl

df = pl.DataFrame({"a": [1, 1, 3, 8, 62, 535, 4213], "b": [10, 20, 30, 40, 50, 60, 70]})

n = 3
result = (
    df
    .with_row_index()  # 自动添加 'index' 列（UInt32 类型）
    .group_by_dynamic(
        index_column=pl.col("index").cast(pl.Int32),  # 必须转为有符号整型
        every=f"{n}i",                                 # "3i" 表示每 3 行一组（i = integer）
        period=f"{n}i",                                # 可选：若需重叠窗口，设 period < every
        closed="left"                                  # 默认行为：[0,3), [3,6), ...
    )
    .agg(
        pl.col("a").mean().alias("a_mean"),
        pl.col("b").sum().alias("b_sum"),
        pl.col("a").count().alias("n_rows")  # 验证每组实际行数（末组可能不足 n 行）
    )
)
print(result)

✅ 关键要点说明：

Skybox AI

一键将涂鸦转为360°无缝环境贴图的AI神器

下载

with_row_index() 比 with_columns(index=pl.int_range(...)) 更简洁、语义更清晰，且避免手写长度计算；
group_by_dynamic 要求 index_column 为有符号整型（Int32 或 Int64），因此必须 .cast(pl.Int32)；
"ni" 中的 i 表示 integer（整数步长），区别于时间单位（如 "3h"），这是对行索引分组的正确语法；
若数据量极大（如 10**6 行），该方案仍保持 O(N) 时间复杂度与良好内存局部性，无显式 Python 循环或副本开销；
注意：末组可能不足 n 行（如 7 行分 3 行一组 → 三组：[0–2], [3–5], [6]），closed="left" 确保行为可预测；如需严格丢弃不完整组，可在后续用 filter(pl.col("n_rows") == n)。

⚠️ 不推荐的替代方式（性能或可维护性较差）：

df.group_by(pl.int_range(0, pl.len()).floor_div(n))：虽可行，但 int_range + floor_div 构造键列效率略低，且语义不如 group_by_dynamic 直观；
手动切片循环（for i in range(0, len(df), n): ...）：完全违背 Polars 向量化原则，性能急剧下降；
使用 rolling：适用于重叠窗口（如移动平均），而非非重叠分段聚合。

综上，你已走在正确的路上——只需将 with_columns(...int_range...) 升级为 with_row_index() 并补上类型转换，便是 Polars 社区公认的惯用、高效、可扩展的最佳实践。

如何安全设计 Python 自定义文件处理类？

Python TypedDict 的适用场景

如何正确导入并使用 Python 的 tkinter 模块创建 GUI 窗口

Python 并发程序中的资源清理问题

如何在函数调用中显式指定位置参数名称（包括可变参数）

相关标签:

python 区别 Integer for Filter 整型循环切片 len 类型转换

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 文本处理中的性能优化技巧下一篇：计算当月已过的营业日数量

作者最新文章

如何在 Go 中运行测试并跳过指定子包