0

0

使用 Polars 的 pivot 操作将长格式数据转为宽格式稀疏矩阵

碧海醫心

碧海醫心

发布时间:2026-01-06 14:39:36

|

640人浏览过

|

来源于php中文网

原创

使用 Polars 的 pivot 操作将长格式数据转为宽格式稀疏矩阵

本文介绍如何利用 polars 的 `pivot()` 方法高效地将键值对形式的稀疏长格式数据(id-key-value)转换为以 key 为列名、id 为行索引的宽格式 dataframe,适用于大规模稀疏特征工程场景。

在处理稀疏结构化数据(如用户行为特征、基因表达谱、推荐系统 item-tag 关系等)时,原始数据常以三元组形式存储:id(实体标识)、key(特征维度/字段名)、value(对应取值)。这种“长格式”节省空间且易于追加更新;但在建模或向量化计算阶段,往往需要将其展开为“宽格式”——即每个 key 成为一列,每行代表一个 id 的完整特征向量。

Polars 提供了原生、高性能的 pivot 操作来完成这一转换。核心只需一行代码:

import polars as pl

df = pl.from_repr("""
┌─────┬─────┬───────┐
│ id  ┆ key ┆ value │
│ --- ┆ --- ┆ ---   │
│ str ┆ str ┆ i64   │
╞═════╪═════╪═══════╡
│ a   ┆ m1  ┆ 1     │
│ a   ┆ m2  ┆ 2     │
│ a   ┆ m3  ┆ 1     │
│ b   ┆ m2  ┆ 4     │
│ c   ┆ m1  ┆ 2     │
│ c   ┆ m3  ┆ 6     │
│ d   ┆ m4  ┆ 4     │
│ e   ┆ m2  ┆ 1     │
└─────┴─────┴───────┘
""")

# 执行 pivot:以 'key' 列值作为新列名,'id' 作为行索引,'value' 填充单元格
result = df.pivot(on="key", index="id", values="value")
print(result)

输出结果即为目标宽格式(5 行 × 5 列),自动对齐所有唯一 key(m1, m2, m3, m4),缺失位置填充 null(Polars 中的 None 等价表示):

LangChain
LangChain

一个开源框架,用于构建基于大型语言模型(LLM)的应用程序。

下载
shape: (5, 5)
┌─────┬──────┬──────┬──────┬──────┐
│ id  ┆ m1   ┆ m2   ┆ m3   ┆ m4   │
│ --- ┆ ---  ┆ ---  ┆ ---  ┆ ---  │
│ str ┆ i64  ┆ i64  ┆ i64  ┆ i64  │
╞═════╪══════╪══════╪══════╪══════╡
│ a   ┆ 1    ┆ 2    ┆ 1    ┆ null │
│ b   ┆ null ┆ 4    ┆ null ┆ null │
│ c   ┆ 2    ┆ null ┆ 6    ┆ null │
│ d   ┆ null ┆ null ┆ null ┆ 4    │
│ e   ┆ null ┆ 1    ┆ null ┆ null │
└─────┴──────┴──────┴──────┴──────┘

⚠️ 重要注意事项

  • pivot() 当前仅支持 eager 模式(即直接作用于 pl.DataFrame),不适用于 LazyFrame 流水线。若需在 lazy 模式下实现类似效果,可先用 unique("key") 获取所有列名,再结合 group_by("id").agg() 与 struct + unnest 手动构造,但性能与可读性略低;官方文档提供了该替代方案的完整示例。
  • 若存在重复的 (id, key) 组合,pivot() 默认会报错。此时需预先聚合(如 df.group_by(["id", "key"]).agg(pl.col("value").first()))以明确冲突策略(取首值、求和、均值等)。
  • 列类型由 values 列推断,若原始 value 类型混杂(如部分为 i64、部分为 f64),建议提前统一类型(如 df.with_columns(pl.col("value").cast(pl.Float64))),避免 pivot 后列类型不一致。

综上,df.pivot(on="key", index="id", values="value") 是 Polars 中实现稀疏长→宽转换最简洁、最高效的标准解法,兼顾表达力与执行性能,是特征工程流水线中不可或缺的关键操作。

相关专题

更多
c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

231

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

435

2024.03.01

Java 桌面应用开发(JavaFX 实战)
Java 桌面应用开发(JavaFX 实战)

本专题系统讲解 Java 在桌面应用开发领域的实战应用,重点围绕 JavaFX 框架,涵盖界面布局、控件使用、事件处理、FXML、样式美化(CSS)、多线程与UI响应优化,以及桌面应用的打包与发布。通过完整示例项目,帮助学习者掌握 使用 Java 构建现代化、跨平台桌面应用程序的核心能力。

61

2026.01.14

php与html混编教程大全
php与html混编教程大全

本专题整合了php和html混编相关教程,阅读专题下面的文章了解更多详细内容。

31

2026.01.13

PHP 高性能
PHP 高性能

本专题整合了PHP高性能相关教程大全,阅读专题下面的文章了解更多详细内容。

73

2026.01.13

MySQL数据库报错常见问题及解决方法大全
MySQL数据库报错常见问题及解决方法大全

本专题整合了MySQL数据库报错常见问题及解决方法,阅读专题下面的文章了解更多详细内容。

20

2026.01.13

PHP 文件上传
PHP 文件上传

本专题整合了PHP实现文件上传相关教程,阅读专题下面的文章了解更多详细内容。

24

2026.01.13

PHP缓存策略教程大全
PHP缓存策略教程大全

本专题整合了PHP缓存相关教程,阅读专题下面的文章了解更多详细内容。

7

2026.01.13

jQuery 正则表达式相关教程
jQuery 正则表达式相关教程

本专题整合了jQuery正则表达式相关教程大全,阅读专题下面的文章了解更多详细内容。

4

2026.01.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
MongoDB 教程
MongoDB 教程

共17课时 | 2万人学习

微信小程序开发之API篇
微信小程序开发之API篇

共15课时 | 1.2万人学习

进程与SOCKET
进程与SOCKET

共6课时 | 0.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号