0

0

Python 使用 pandas chunk 处理大文件

冰川箭仙

冰川箭仙

发布时间:2025-09-23 21:38:01

|

996人浏览过

|

来源于php中文网

原创

chunk是pandas分块读取数据时的单位,设置chunksize可返回可迭代对象,每块为小型DataFrame;示例中每次读取10000行进行处理,适用于清洗、统计、导出等场景;通过累计sum和count计算全局均值,或过滤后保存到新文件、写入数据库;需权衡chunksize大小,避免内存累积,注意跨块操作需维护中间状态。

python 使用 pandas chunk 处理大文件

处理大文件时,直接读取整个文件容易导致内存溢出。Python 中的 pandas 提供了 chunksize 参数,可以分块读取数据,逐块处理,有效降低内存占用

什么是 chunk?

在使用 pandas.read_csv() 或类似方法时,设置 chunksize 参数会返回一个可迭代的对象,每次只加载一部分数据。每一块(chunk)都是一个小型 DataFrame,可以单独处理。

示例代码:

import pandas as pd

指定每次读取 10000 行

chunk_size = 10000 file_path = 'large_data.csv'

for chunk in pd.read_csv(file_path, chunksize=chunk_size):

立即学习Python免费学习笔记(深入)”;

生活同城信息网系统
生活同城信息网系统

fankuan8生活同城信息网系统 v1206采用主流的Asp+Access开发设计,网站美工设计方面更大气,漂亮!网站浏览器兼容性也比较好,网站功能方面的细节方面十分强大。 网站程序的几大特点: 1.全站页面实行了伪静态化,各类型网站服务器的伪静态文件都已近处理好了,无需自己再做伪静态出来。 2.网站前台开始使用了fankuan8独立开发的互助链系统,开始使用时,在网站底部点击链接根据提示马上

下载

对每一块数据进行处理

print(f"处理 {len(chunk)} 行数据")
# 例如:统计某一列的均值
if 'value' in chunk.columns:
    print("value 列平均值:", chunk['value'].mean())

常见用途与技巧

分块读取适用于多种场景,比如数据清洗、聚合统计、写入数据库或导出新文件。

1. 聚合全局统计信息
即使数据被分块,也可以累计计算总和、均值等。

total_sum = 0
total_count = 0

for chunk in pd.read_csv(file_path, chunksize=10000): total_sum += chunk['value'].sum() total_count += len(chunk)

overall_mean = total_sum / total_count print("整体均值:", overall_mean)

2. 过滤数据并保存结果
可以筛选符合条件的数据,写入新文件。

output_file = 'filtered_data.csv'
first_chunk = True  # 控制是否写入表头

for chunk in pd.read_csv(file_path, chunksize=10000): filtered = chunk[chunk['value'] > 100]

第一次写入时包含表头,后续追加

filtered.to_csv(output_file, mode='a', header=first_chunk, index=False)
first_chunk = False

3. 写入数据库
适合将大数据逐步导入数据库。

from sqlalchemy import create_engine

engine = create_engine('sqlite:///mydb.db')

for chunk in pd.read_csv(file_path, chunksize=5000): chunk.to_sql('table_name', engine, if_exists='append', index=False)

注意事项

使用 chunk 处理时需要注意以下几点:

  • chunksize 大小需权衡:太小会增加 I/O 开销,太大仍可能耗内存,一般 5000~50000 行较合适。
  • 确保每块数据处理完及时释放,避免累积变量占用内存。
  • 若需去重或排序,分块处理会复杂,可能需要额外策略(如分组键哈希)。
  • 某些操作(如跨块统计)需手动维护中间状态。

基本上就这些。合理使用 chunk 可以轻松应对远超内存容量的 CSV 文件处理任务。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

71

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

1

2026.01.31

counta和count的区别
counta和count的区别

Count函数用于计算指定范围内数字的个数,而CountA函数用于计算指定范围内非空单元格的个数。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

198

2023.11.20

数据库三范式
数据库三范式

数据库三范式是一种设计规范,用于规范化关系型数据库中的数据结构,它通过消除冗余数据、提高数据库性能和数据一致性,提供了一种有效的数据库设计方法。本专题提供数据库三范式相关的文章、下载和课程。

360

2023.06.29

如何删除数据库
如何删除数据库

删除数据库是指在MySQL中完全移除一个数据库及其所包含的所有数据和结构,作用包括:1、释放存储空间;2、确保数据的安全性;3、提高数据库的整体性能,加速查询和操作的执行速度。尽管删除数据库具有一些好处,但在执行任何删除操作之前,务必谨慎操作,并备份重要的数据。删除数据库将永久性地删除所有相关数据和结构,无法回滚。

2083

2023.08.14

vb怎么连接数据库
vb怎么连接数据库

在VB中,连接数据库通常使用ADO(ActiveX 数据对象)或 DAO(Data Access Objects)这两个技术来实现:1、引入ADO库;2、创建ADO连接对象;3、配置连接字符串;4、打开连接;5、执行SQL语句;6、处理查询结果;7、关闭连接即可。

349

2023.08.31

MySQL恢复数据库
MySQL恢复数据库

MySQL恢复数据库的方法有使用物理备份恢复、使用逻辑备份恢复、使用二进制日志恢复和使用数据库复制进行恢复等。本专题为大家提供MySQL数据库相关的文章、下载、课程内容,供大家免费下载体验。

256

2023.09.05

vb中怎么连接access数据库
vb中怎么连接access数据库

vb中连接access数据库的步骤包括引用必要的命名空间、创建连接字符串、创建连接对象、打开连接、执行SQL语句和关闭连接。本专题为大家提供连接access数据库相关的文章、下载、课程内容,供大家免费下载体验。

326

2023.10.09

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

30

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Pandas 教程
Pandas 教程

共15课时 | 1万人学习

CSS3 教程
CSS3 教程

共18课时 | 5.1万人学习

【web前端】Node.js快速入门
【web前端】Node.js快速入门

共16课时 | 2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号