0

0

使用Python和Pandas高效合并多层子文件夹中的CSV文件

聖光之護

聖光之護

发布时间:2025-10-30 14:16:01

|

304人浏览过

|

来源于php中文网

原创

使用Python和Pandas高效合并多层子文件夹中的CSV文件

本教程将指导您如何利用python的`pathlib`库递归查找多层子文件夹中的所有csv文件,并结合`pandas`库将这些文件高效地合并成一个统一的csv文件。文章详细介绍了文件发现、数据读取、高效合并以及结果保存的完整流程,并提供了优化的代码示例和实用注意事项,旨在帮助用户处理复杂目录结构下的数据整合需求。

在日常数据处理工作中,我们经常会遇到数据分散在多个子文件夹甚至多层嵌套子文件夹中的情况。例如,一个项目可能按日期或类别创建了大量的子目录,每个子目录中都包含一个或多个需要合并的CSV文件。手动查找和合并这些文件不仅耗时,而且容易出错。本教程将展示如何利用Python的pathlib模块进行高效的文件系统遍历,并结合pandas库进行数据读取和合并,从而自动化这一过程,生成一个统一的CSV文件。

核心库介绍:Pathlib与Pandas

要实现这一目标,我们将主要依赖两个强大的Python库:

  1. pathlib: Python 3.4+ 引入的标准库,提供了面向对象的文件系统路径操作。它比传统的os.path模块更现代、更直观。其中,Path.rglob()方法是递归查找文件的关键。
  2. pandas: 一个广泛用于数据分析和操作的库。它提供了DataFrame数据结构,以及方便的read_csv()函数用于读取CSV文件,和concat()函数用于合并多个DataFrame。

实现步骤详解

以下是将多层子文件夹中的CSV文件合并到单个文件的具体步骤。

1. 导入所需库

首先,我们需要导入pathlib和pandas库。

立即学习Python免费学习笔记(深入)”;

from pathlib import Path
import pandas as pd

2. 定义基础目录和输出文件

您需要指定包含所有子文件夹的父目录路径,以及合并后输出文件的名称。

# 定义包含所有子文件夹的父目录
# 假设您的父目录名为 'Sessions',且与脚本在同一级别或已在系统路径中
base_directory = 'Sessions' 

# 定义合并后输出的CSV文件名
output_csv_name = 'weather_All.csv'

3. 递归查找所有CSV文件

使用pathlib.Path.rglob('*.csv')方法可以递归地在指定目录及其所有子目录中查找所有扩展名为.csv的文件。

百宝箱
百宝箱

百宝箱是支付宝推出的一站式AI原生应用开发平台,无需任何代码基础,只需三步即可完成AI应用的创建与发布。

下载
base_path = Path(base_directory)
csv_files = list(base_path.rglob('*.csv'))

if not csv_files:
    print(f"在目录 '{base_directory}' 中未找到任何CSV文件。")
    # 可以选择在此处退出或抛出异常

rglob()返回一个生成器,为了方便后续处理,我们将其转换为列表。

4. 读取并收集DataFrame

为了提高效率,最佳实践是先将所有CSV文件读取到独立的pandas.DataFrame对象中,并将这些DataFrame收集到一个列表中。避免在循环中反复调用pd.concat(),因为这会导致频繁创建新的DataFrame对象,效率较低。

all_dataframes = []

for file_path in csv_files:
    try:
        df = pd.read_csv(file_path)
        all_dataframes.append(df)
        print(f"已读取文件: {file_path}")
    except Exception as e:
        print(f"读取文件失败: {file_path}, 错误信息: {e}")

if not all_dataframes:
    print("没有成功读取任何CSV文件,无法进行合并。")
    # 可以选择在此处退出或抛出异常

这里加入了try-except块,以处理在读取某个CSV文件时可能出现的错误(例如,文件损坏、编码问题等),从而避免程序中断。

5. 合并所有DataFrame

当所有DataFrame都收集到列表后,可以使用pd.concat()函数一次性将它们合并成一个大的DataFrame。ignore_index=True参数用于重置合并后DataFrame的索引,避免出现重复索引。

combined_df = pd.concat(all_dataframes, ignore_index=True)
print(f"\n成功合并了 {len(all_dataframes)} 个CSV文件。")
print("合并后数据的前5行:")
print(combined_df.head())

6. 保存合并后的数据

最后,将合并后的DataFrame保存为一个新的CSV文件。index=False参数表示不将DataFrame的索引写入CSV文件,encoding='utf-8-sig'则可以确保文件在不同系统上打开时中文等特殊字符不会出现乱码。

output_path = base_path / output_csv_name
combined_df.to_csv(output_path, index=False, encoding='utf-8-sig')
print(f"\n合并后的数据已保存至: {output_path}")

完整代码示例

将上述步骤整合到一个函数中,便于复用。

from pathlib import Path
import pandas as pd

def combine_nested_csv_files(base_directory: str, output_csv_name: str = "combined_data.csv"):
    """
    递归查找指定父目录及其所有子目录中的CSV文件,
    并将其合并为一个单一的CSV文件。

    Args:
        base_directory (str): 包含所有子文件夹和CSV文件的父目录路径。
        output_csv_name (str): 合并后输出的CSV文件名。
                                 该文件将保存在 base_directory 下。
    """
    base_path = Path(base_directory)

    if not base_path.is_dir():
        print(f"错误: 基础目录 '{base_directory}' 不存在或不是一个目录。")
        return

    csv_files = list(base_path.rglob('*.csv'))

    if not csv_files:
        print(f"在目录 '{base_directory}' 及其子目录中未找到任何CSV文件。")
        return

    all_dataframes = []
    print(f"开始处理目录: {base_directory}")

    for file_path in csv_files:
        try:
            df = pd.read_csv(file_path)
            all_dataframes.append(df)
            print(f"  - 已成功读取: {file_path}")
        except pd.errors.EmptyDataError:
            print(f"  - 警告: 文件为空,跳过: {file_path}")
        except Exception as e:
            print(f"  - 错误: 读取文件失败: {file_path}, 错误信息: {e}")

    if not all_dataframes:
        print("没有成功读取任何CSV文件,无法进行合并。")
        return

    print("\n所有CSV文件已读取完毕,开始合并...")
    try:
        combined_df = pd.concat(all_dataframes, ignore_index=True)
        print(f"成功合并了 {len(all_dataframes)} 个CSV文件。")

        output_path = base_path / output_csv_name
        combined_df.to_csv(output_path, index=False, encoding='utf-8-sig')
        print(f"合并后的数据已保存至: {output_path}")
        print("合并完成。")
    except Exception as e:
        print(f"合并或保存数据时发生错误: {e}")

# --- 示例用法 ---
# 假设您的项目结构如下:
# YourProject/
# ├── script.py
# └── Sessions/
#     ├── day1/
#     │   └── weather/
#     │       └── weather1.csv
#     ├── day2/
#     │   └── weather/
#     │       └── weather2.csv
#     └── day3/
#         └── weather/
#             └── weather3.csv
#
# 调用函数:
combine_nested_csv_files('Sessions', 'weather_All.csv')

# 如果您的父目录在更深的路径,例如:
# combine_nested_csv_files('/path/to/your/Sessions', 'weather_All.csv')

注意事项与最佳实践

  1. 效率优化: 避免在循环内部频繁地使用pd.concat()。每次concat都会创建一个新的DataFrame,对于大量文件或大文件,这会消耗大量内存和CPU时间。本教程中采用的“先收集后合并”策略是更高效的做法。
  2. 错误处理: 在读取CSV文件时,可能会遇到各种问题,如文件不存在、文件损坏、编码错误或文件为空。使用try-except块可以优雅地处理这些异常,避免程序崩溃。pd.errors.EmptyDataError专门用于处理空文件。
  3. 内存管理: 对于包含数百万行或数十GB数据的超大CSV文件,即使是“先收集后合并”的策略也可能导致内存不足(MemoryError)。在这种情况下,可以考虑以下替代方案:
    • 分块读取和合并: 使用pd.read_csv(chunksize=...)分块读取每个文件,然后将块合并到目标文件,而不是一次性加载所有数据到内存。
    • 使用Dask: Dask是一个并行计算库,可以处理超出内存限制的数据集,其API与Pandas非常相似。
  4. 列名一致性: pd.concat()默认会根据列名进行合并。如果不同CSV文件的列名不完全一致,pandas会自动填充NaN值。如果需要严格的列名匹配或重命名,您可能需要在读取每个DataFrame后进行预处理。
  5. 编码问题: CSV文件的编码多种多样(如UTF-8、GBK、Latin-1等)。如果pd.read_csv()报错,很可能是编码问题。尝试在pd.read_csv()中指定encoding参数,例如pd.read_csv(file_path, encoding='gbk')。同样,to_csv()也建议明确指定encoding。
  6. 文件路径: 确保base_directory参数指向正确的父目录。如果脚本和Sessions目录不在同一位置,需要提供完整的绝对路径。

总结

通过本教程,您已经学会了如何利用Python的pathlib和pandas库高效地合并多层子文件夹中的CSV文件。这种方法不仅自动化了重复性任务,还通过优化合并策略和错误处理,提高了代码的健壮性和效率。掌握这些技能将大大提升您在数据处理和分析工作中的生产力。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

79

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

32

2026.01.31

go语言 面向对象
go语言 面向对象

本专题整合了go语言面向对象相关内容,阅读专题下面的文章了解更多详细内容。

58

2025.09.05

java面向对象
java面向对象

本专题整合了java面向对象相关内容,阅读专题下面的文章了解更多详细内容。

63

2025.11.27

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

44

2026.01.06

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

66

2025.12.13

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号