0

0

Polars数据合并技巧:将字典DataFrame合并为单一表并标记来源

霞舞

霞舞

发布时间:2025-11-04 10:17:15

|

492人浏览过

|

来源于php中文网

原创

Polars数据合并技巧:将字典DataFrame合并为单一表并标记来源

本教程详细介绍了如何在polars中高效地将存储在字典中的多个dataframe合并成一个单一的dataframe,同时为每行数据添加一个新列,以标识其原始来源(即字典的键)。通过结合使用列表推导式、`with_columns`、`pl.lit`和`pl.concat`函数,用户可以优雅地实现这一常见的数据整理任务,确保数据完整性和可追溯性。

Polars中合并字典DataFrame并保留来源信息

在数据处理过程中,我们经常会遇到需要从多个来源(例如不同的Excel工作表、数据库查询结果)导入数据,并将它们存储在一个Python字典中,其中字典的键代表来源名称,值是对应的Polars DataFrame。此时,一个常见的需求是将这些独立的DataFrame按行合并成一个统一的DataFrame,并且在新合并的表中保留一个列来标识每行数据最初属于哪个DataFrame。本文将深入探讨如何在Polars中优雅且高效地实现这一目标。

问题场景与挑战

假设我们有一个字典dcty,其中包含了多个Polars DataFrame,每个DataFrame都代表一个独立的数据集:

import polars as pl

dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

我们期望的输出是一个包含所有数据,并且多了一个名为sheet的列,用于指示数据来源的DataFrame:

shape: (4, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ sheet│
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ str  │
╞══════╪══════╪══════╡
│ 1    ┆ a    ┆ df1  │
│ 2    ┆ b    ┆ df1  │
│ 3    ┆ c    ┆ df2  │
│ 4    ┆ d    ┆ df2  │
└──────┴──────┴──────┘

直接使用pl.concat函数可以垂直合并DataFrame列表,但它无法自动添加来源标识列。如果我们将字典转换为列表,会丢失原始的DataFrame名称信息。因此,我们需要一种方法在合并之前,为每个DataFrame添加一个包含其名称的新列。

核心解决方案

Polars提供了一个简洁而强大的解决方案,它结合了列表推导式、with_columns、pl.lit和pl.concat函数:

Vondy
Vondy

下一代AI应用平台,汇集了一流的工具/应用程序

下载
import polars as pl

# 示例数据
dcty = {
    "df1": pl.DataFrame({'col1': [1, 2], 'col2': ["a", "b"]}),
    "df2": pl.DataFrame({'col1': [3, 4], 'col2': ["c", "d"]}),
}

# 解决方案代码
combined_df = pl.concat([df.with_columns(sheet=pl.lit(name)) for name, df in dcty.items()])

print(combined_df)

运行上述代码将产生预期的输出:

shape: (4, 3)
┌──────┬──────┬───────┐
│ col1 ┆ col2 ┆ sheet │
│ ---  ┆ ---  ┆ ---   │
│ i64  ┆ str  ┆ str   │
╞══════╪══════╪═══════╡
│ 1    ┆ a    ┆ df1   │
│ 2    ┆ b    ┆ df1   │
│ 3    ┆ c    ┆ df2   │
│ 4    ┆ d    ┆ df2   │
└──────┴──────┴───────┘

解决方案详解

这个解决方案的核心在于通过列表推导式对字典中的每个DataFrame进行预处理,然后将处理后的DataFrame列表传递给pl.concat。

  1. dcty.items(): 这个方法用于遍历字典dcty中的所有键值对。在每次迭代中,name将是字典的键(例如"df1", "df2"),而df将是对应的Polars DataFrame。

  2. df.with_columns(sheet=pl.lit(name)): 这是关键的一步,它为每个DataFrame动态地添加一个新列。

    • with_columns(): Polars DataFrame的一个方法,用于添加、修改或删除列。它接受一个或多个表达式作为参数。
    • sheet=...: 指定新列的名称为sheet。
    • pl.lit(name): pl.lit()函数用于创建一个字面量表达式。在这里,它将当前的name(即字典的键,如"df1")作为一个常量值,应用于新列sheet的所有行。这意味着,来自"df1"的所有行都会在sheet列中得到"df1"这个值。
  3. [...] (列表推导式): 列表推导式[df.with_columns(sheet=pl.lit(name)) for name, df in dcty.items()]会生成一个新的DataFrame列表。这个列表中的每个DataFrame都已经是经过修改的,即它们都包含了一个名为sheet的新列,其中填充了其原始的字典键。

  4. pl.concat(...): 最后,pl.concat()函数接收这个包含所有已修改DataFrame的列表,并将它们垂直(按行)合并成一个单一的DataFrame。pl.concat默认执行垂直合并,因此不需要显式指定how="vertical"。

通过这种方式,我们不仅成功地合并了所有DataFrame,而且巧妙地利用了Polars的表达式系统,在合并过程中保留了宝贵的来源信息。

注意事项与最佳实践

  • Schema一致性: 为了确保pl.concat顺利执行并得到预期的结果,所有待合并的DataFrame应该具有兼容的列结构和数据类型。如果列名不一致,pl.concat会尝试进行对齐,可能会导致额外的null值。如果数据类型不兼容,Polars可能会尝试隐式类型转换,但也可能抛出错误。在合并前检查并标准化DataFrame的schema是一个好习惯。
  • 性能: Polars的pl.concat函数是高度优化的,对于大量DataFrame或大型DataFrame的合并操作,其性能通常非常出色。列表推导式在Python中也是一种高效的构建列表的方式。
  • 内存管理: 尽管Polars在内存效率方面表现优秀,但合并大量大型DataFrame仍然可能消耗大量内存。确保系统有足够的RAM来处理合并操作。
  • 错误处理: 在实际应用中,如果字典中的DataFrame可能为空或格式不一致,建议在列表推导式中加入额外的逻辑进行过滤或处理,例如:
    # 过滤掉空的DataFrame
    combined_df = pl.concat([
        df.with_columns(sheet=pl.lit(name)) 
        for name, df in dcty.items() 
        if not df.is_empty()
    ])

总结

将Polars字典中的多个DataFrame合并成一个带有来源标识的单一DataFrame,是一个常见的但有时令人困惑的数据处理任务。通过本教程介绍的方法,即利用列表推导式结合with_columns和pl.lit来预处理每个DataFrame,再通过pl.concat进行最终合并,我们能够以一种高效、清晰且富有表达力的方式解决这一问题。掌握这一技巧,将大大提升您在Polars中处理复杂数据整合任务的能力。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

338

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

138

2026.02.12

c语言中null和NULL的区别
c语言中null和NULL的区别

c语言中null和NULL的区别是:null是C语言中的一个宏定义,通常用来表示一个空指针,可以用于初始化指针变量,或者在条件语句中判断指针是否为空;NULL是C语言中的一个预定义常量,通常用来表示一个空值,用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法
java中null的用法

在Java中,null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量,包括类、接口、数组、字符串等。想了解更多null的相关内容,可以阅读本专题下面的文章。

1089

2024.03.01

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1569

2023.10.24

C++类型转换方式
C++类型转换方式

本专题整合了C++类型转换相关内容,想了解更多相关内容,请阅读专题下面的文章。

320

2025.07.15

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

389

2023.06.29

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Excel 教程
Excel 教程

共162课时 | 21.4万人学习

成为PHP架构师-自制PHP框架
成为PHP架构师-自制PHP框架

共28课时 | 2.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号