0

0

Pandas怎么读取大型CSV_chunksize分块读取与迭代器合并结果

P粉602998670

P粉602998670

发布时间:2026-03-15 14:37:31

|

564人浏览过

|

来源于php中文网

原创

chunksize参数需设为正整数(如50000),返回TextFileReader迭代器;不可为0或负数,避免内存溢出或I/O过载;配合ignore_index=True合并、避免循环concat,超10GB宜换csv模块/dask/parquet。

pandas怎么读取大型csv_chunksize分块读取与迭代器合并结果

chunksize 参数怎么用才不报错

直接传 chunksize 是最常用也最稳妥的分块方式,它让 pd.read_csv() 返回一个 TextFileReader 迭代器,而不是一次性加载全部数据。关键不是“设多大”,而是“设得合理”——太大仍会内存溢出,太小则 I/O 开销陡增。

  • 典型安全起点是 chunksize=50000(5 万行),适用于普通 8–16GB 内存机器;若文件含大量字符串列,建议先试 10000
  • 不要写 chunksize=0 或负数,会抛 ValueError: chunksize must be > 0
  • 如果文件有 BOM 头或编码异常,chunksize 不会帮你绕过,必须显式加 encoding='utf-8-sig' 或其他正确编码
  • 遇到 MemoryError 时,别急着换工具——先减半 chunksize,再观察;90% 的情况只是块设太大了

iterator=True 和 chunksize 有什么区别

两者都返回 TextFileReader,但行为不同:chunksize 是“定额分批”,iterator=True 是“按需取块”。后者更灵活,适合你不确定每块该读多少行、或想动态调整块大小的场景。

  • iterator=True 本身不指定块大小,必须配合 .get_chunk(n) 才能读数据;不调就不会加载任何内容
  • 你可以第一次 get_chunk(1000) 看前几行结构,第二次根据列类型决定用 get_chunk(50000) 做主处理
  • 若中途想提前退出(比如只统计前 100 万行),iterator=True 更容易控制流程;而 chunksize 的 for 循环必须走完或手动 break
  • 注意:iterator=Truechunksize 不能同时设,否则 pandas 会忽略 iterator 并警告

合并分块结果时最常踩的坑

很多人以为 pd.concat(chunks) 就完事了,结果发现内存翻倍、索引错乱、甚至列顺序不一致——问题往往出在 chunk 之间隐含的差异上。

灵机语音
灵机语音

灵机语音

下载
  • 每个 chunk 默认带自己的行索引(从 0 开始),直接 concat 会导致重复索引;务必加 ignore_index=True
  • 如果原始 CSV 某些 chunk 缺失某列(比如空行、格式错位),concat 可能报 ValueError: All objects passed were None 或列对不齐;建议加 sort=False 并检查 chunk.columns.equals(chunks[0].columns)
  • 别在循环里反复 pd.concat([df, new_chunk])——这是 O(n²) 操作,10 个 chunk 就可能卡住;始终用列表收集,最后一次性 concat
  • 如果最终不需要完整 DataFrame,只是求和/计数/去重等聚合,就根本别 concat;每块算完累加变量即可,省内存又快

什么时候该放弃 pandas,换别的方案

当你的 CSV 超过 10GB、列数超 200、且需要频繁随机访问或复杂连接时,chunksize 已经不是“优化”,而是“将就”。这时硬扛只会拖慢开发节奏。

  • 单次分析只要几个统计值?用 csv 模块 + 生成器逐行解析,内存恒定在 KB 级
  • 要反复查询、过滤、关联多个大文件?考虑 dask.dataframe,接口兼容 pandas,但底层自动分块+延迟计算
  • 后续还要做机器学习训练?直接导成 parquet 格式(用 pyarrow),之后读取速度提升 3–5 倍,且支持列裁剪
  • 别忘了:chunksize 解决的是“读得进”,不是“算得快”——清洗逻辑写得低效,块再小也没用
分块读取本身很简单,难的是判断哪一块该读、哪一块该跳、哪一块其实不该用 pandas 碰。真实项目里,花十分钟看清楚文件头、缺失模式和字段分布,比盲目调 chunksize 参数有用得多。

本站声明:本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

82

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

34

2026.01.31

sort排序函数用法
sort排序函数用法

sort排序函数的用法:1、对列表进行排序,默认情况下,sort函数按升序排序,因此最终输出的结果是按从小到大的顺序排列的;2、对元组进行排序,默认情况下,sort函数按元素的大小进行排序,因此最终输出的结果是按从小到大的顺序排列的;3、对字典进行排序,由于字典是无序的,因此排序后的结果仍然是原来的字典,使用一个lambda表达式作为key参数的值,用于指定排序的依据。

409

2023.09.04

java中break的作用
java中break的作用

本专题整合了java中break的用法教程,阅读专题下面的文章了解更多详细内容。

120

2025.10.15

java break和continue
java break和continue

本专题整合了java break和continue的区别相关内容,阅读专题下面的文章了解更多详细内容。

262

2025.10.24

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

761

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1570

2023.10.24

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

69

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号