0

0

Polars 数据框字典合并与源信息保留教程

DDD

DDD

发布时间:2025-11-03 11:06:24

|

413人浏览过

|

来源于php中文网

原创

Polars 数据框字典合并与源信息保留教程

本教程详细介绍了如何在 polars 中高效地将存储在字典中的多个数据框按行合并为一个单一的数据框,并在此过程中自动添加一列以记录每个观测值来源于哪个原始数据框(即字典的键名)。通过结合列表推导式、`with_columns` 和 `pl.concat` 函数,我们能够优雅地解决这一常见的数据整合需求,同时保持代码的简洁性和执行效率。

在数据处理工作中,我们经常会遇到需要从多个来源(例如不同的 Excel 工作表、CSV 文件或数据库查询结果)导入数据,并将它们存储在一个字典中,其中字典的键通常代表数据的来源名称。随后,一个常见的需求是将这些独立的数据框按行合并成一个大的数据框,同时保留原始数据框的名称作为新数据框中的一列,以便追踪数据的来源。

Polars 作为一种高性能的数据框库,提供了强大的工具来处理这类任务。虽然它没有像 R Tidyverse 中 bind_rows(.id = "ID") 那样直接的单函数解决方案,但通过组合其核心功能,我们可以实现同样甚至更灵活的效果。

问题场景与目标

假设我们有一个 Polars 数据框的字典,其中每个键是数据框的名称,值是对应的 Polars 数据框。我们的目标是:

  1. 将字典中的所有数据框按行垂直堆叠。
  2. 在合并后的数据框中添加一个新列(例如 sheet),该列的值是每个观测值所来自的原始数据框的名称(即字典的键)。

以下是一个示例数据字典:

import polars as pl

dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

我们期望的输出结果是一个包含所有行,并额外带有 sheet 列的单一数据框:

Jukedeck
Jukedeck

一个由人工智能驱动的音乐创作工具,允许用户为各种项目生成免版税的音乐。

下载
shape: (4, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ sheet│
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ str  │
╞══════╪══════╪══════╡
│ 1    ┆ a    ┆ df1  │
│ 2    ┆ b    ┆ df1  │
│ 3    ┆ c    ┆ df2  │
│ 4    ┆ d    ┆ df2  │
└──────┴──────┴──────┘

解决方案详解

Polars 提供了 pl.concat 函数用于合并数据框。默认情况下,pl.concat 执行垂直合并(how="vertical"),这正是我们需要的。然而,pl.concat 接收的是一个数据框列表,直接将字典的值转换为列表会丢失原始数据框的名称信息。因此,关键在于在合并之前,为每个数据框添加一个包含其名称的新列。

我们可以通过结合列表推导式、DataFrame.with_columns() 方法和 pl.lit() 函数来实现这一点。

核心步骤:

  1. 遍历字典: 使用列表推导式遍历字典中的每个键值对(name, df)。
  2. 添加源名称列: 对于字典中的每一个数据框 df,使用 df.with_columns(sheet=pl.lit(name)) 添加一个名为 sheet 的新列。
    • with_columns():这是 Polars 中用于添加或修改列的强大方法。
    • pl.lit(name):pl.lit() 函数用于创建一个字面量表达式。在这里,它会为新添加的 sheet 列的每一行填充当前数据框的名称 name。
  3. 执行垂直合并: 将经过上述处理的所有数据框组成的列表传递给 pl.concat() 函数,完成最终的合并。

示例代码:

import polars as pl

# 示例数据字典
dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

# 解决方案
combined_df = pl.concat([
    df.with_columns(sheet=pl.lit(name)) 
    for name, df in dcty.items()
])

# 打印结果
print(combined_df)

运行上述代码将产生预期的输出:

shape: (4, 3)
┌──────┬──────┬───────┐
│ col1 ┆ col2 ┆ sheet │
│ ---  ┆ ---  ┆ ---   │
│ i64  ┆ str  ┆ str   │
╞══════╪══════╪═══════╡
│ 1    ┆ a    ┆ df1   │
│ 2    ┆ b    ┆ df1   │
│ 3    ┆ c    ┆ df2   │
│ 4    ┆ d    ┆ df2   │
└──────┴──────┴───────┘

注意事项与最佳实践

  • 列名一致性: 进行垂直合并时,建议所有待合并的数据框具有相同的列名和兼容的数据类型。如果列名不一致,pl.concat 会自动填充 null 值以对齐列。如果数据类型不兼容,Polars 会尝试进行类型推断或强制转换,这可能导致意外的结果或错误。
  • 性能: 这种基于列表推导式和 pl.concat 的方法在 Polars 中是高效且惯用的。Polars 内部会优化这些操作,尤其是在处理大量数据时,其性能通常优于传统的循环追加方法。
  • 灵活性: with_columns 方法非常灵活,你不仅可以添加源名称,还可以在合并前对每个数据框执行其他预处理操作,例如重命名列、过滤行等。
  • pl.lit() 的作用: pl.lit() 是一个关键函数,它将一个 Python 值转换为 Polars 表达式,确保该值在整个新列中被广播(重复)到每一行。

总结

本教程展示了在 Polars 中如何优雅地将一个数据框字典合并为一个单一的数据框,并在此过程中保留原始数据框的名称作为新列。通过利用列表推导式、DataFrame.with_columns() 和 pl.lit() 函数,我们能够构建出既简洁又高效的代码,完美解决了在数据整合场景中追踪数据来源的常见需求。掌握这种模式对于 Polars 用户来说至关重要,它能够帮助你更有效地组织和分析复杂数据集。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

310

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

222

2025.10.31

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

237

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

479

2024.03.01

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

398

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

360

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2083

2023.08.14

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

54

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 14.7万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.5万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号