0

0

Pandas大数据帧写入CSV耗时过长如何高效解决?

霞舞

霞舞

发布时间:2025-03-05 10:46:14

|

337人浏览过

|

来源于php中文网

原创

pandas大数据帧写入csv耗时过长如何高效解决?

优化Pandas大数据帧CSV写入速度

在处理大型Pandas DataFrame时,使用to_csv()函数写入CSV文件经常成为性能瓶颈。本文针对一个耗时近一小时的案例,分析问题并提供高效解决方案。

问题描述:

代码使用glob模块读取多个压缩的CSV文件(.csv.gz),并利用pd.read_csv以分块读取方式(chunksize=100000)加载数据到Pandas DataFrame。然而,将最终的DataFrame写入CSV文件(to_csv())却花费了55分钟。数据量约2000万条记录,100列,主要为数值型数据。代码如下:

import os
import glob
import pandas as pd

src_files = glob.glob(os.path.join('/my/path', "*.csv.gz"))

df = pd.DataFrame()  # 初始化一个空DataFrame
for file_ in sorted(src_files):
    iter_csv = pd.read_csv(file_, sep=',', index_col=False, header=0, 
                           low_memory=False, iterator=True, chunksize=100000, 
                           compression='gzip', memory_map=True, encoding='utf-8')
    df = pd.concat([chunk for chunk in iter_csv], ignore_index=True)

df.to_csv('output.csv', sep='|', header=True, index=False, chunksize=100000, encoding='utf-8')

del df

即使使用了分块读取和写入(chunksize=100000),写入速度仍然很慢。

Veggie AI
Veggie AI

Veggie AI 是一款利用AI技术生成可控视频的在线工具

下载

解决方案:

为了提高写入效率,建议使用更适合大规模数据存储的HDF5格式。Pandas的to_hdf()函数可以显著提升写入速度。以下代码展示了如何使用to_hdf()

df.to_hdf(r'path/file.h5', key='df', mode='w')

to_hdf()方法能大幅缩短写入时间。某些情况下,写入100MB数据到HDF5文件只需不到一秒,而to_csv()可能需要30-55秒。因此,to_hdf()是处理大型Pandas DataFrame的更优选择,尤其在写入速度至关重要的场景下。 后续如需读取,可以使用pd.read_hdf()函数。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

52

2025.12.04

Java JVM 原理与性能调优实战
Java JVM 原理与性能调优实战

本专题系统讲解 Java 虚拟机(JVM)的核心工作原理与性能调优方法,包括 JVM 内存结构、对象创建与回收流程、垃圾回收器(Serial、CMS、G1、ZGC)对比分析、常见内存泄漏与性能瓶颈排查,以及 JVM 参数调优与监控工具(jstat、jmap、jvisualvm)的实战使用。通过真实案例,帮助学习者掌握 Java 应用在生产环境中的性能分析与优化能力。

19

2026.01.20

PS使用蒙版相关教程
PS使用蒙版相关教程

本专题整合了ps使用蒙版相关教程,阅读专题下面的文章了解更多详细内容。

61

2026.01.19

java用途介绍
java用途介绍

本专题整合了java用途功能相关介绍,阅读专题下面的文章了解更多详细内容。

87

2026.01.19

java输出数组相关教程
java输出数组相关教程

本专题整合了java输出数组相关教程,阅读专题下面的文章了解更多详细内容。

39

2026.01.19

java接口相关教程
java接口相关教程

本专题整合了java接口相关内容,阅读专题下面的文章了解更多详细内容。

10

2026.01.19

xml格式相关教程
xml格式相关教程

本专题整合了xml格式相关教程汇总,阅读专题下面的文章了解更多详细内容。

13

2026.01.19

PHP WebSocket 实时通信开发
PHP WebSocket 实时通信开发

本专题系统讲解 PHP 在实时通信与长连接场景中的应用实践,涵盖 WebSocket 协议原理、服务端连接管理、消息推送机制、心跳检测、断线重连以及与前端的实时交互实现。通过聊天系统、实时通知等案例,帮助开发者掌握 使用 PHP 构建实时通信与推送服务的完整开发流程,适用于即时消息与高互动性应用场景。

19

2026.01.19

微信聊天记录删除恢复导出教程汇总
微信聊天记录删除恢复导出教程汇总

本专题整合了微信聊天记录相关教程大全,阅读专题下面的文章了解更多详细内容。

160

2026.01.18

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

ThinkPHP6.x API接口--十天技能课堂
ThinkPHP6.x API接口--十天技能课堂

共14课时 | 1.1万人学习

微信小程序开发--云开发篇
微信小程序开发--云开发篇

共15课时 | 0.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号