pandas read_csv 读取大文件不爆内存的 5 种实用参数组合

舞姬之光

发布时间：2026-01-20 08:12:09

723人浏览过

来源于php中文网

原创

用pandas.read_csv读取大文件时，应组合chunksize、usecols、dtype、low_memory=False等参数分块读取、只加载必要列、指定紧凑数据类型、避免类型推断错误，可显著降低内存占用。

pandas read_csv 读取大文件不爆内存的 5 种实用参数组合

用 pandas.read_csv 读取大文件时，内存爆掉很常见——但其实只要合理组合几个关键参数，就能把内存占用压到很低，甚至稳定读完几个 GB 的 CSV。核心思路是：不一次性加载全部数据、跳过无用列、控制数据类型、分块处理、延迟解析。

1. 用 chunksize 分块读取 + 迭代处理

这是最常用也最有效的降内存手段。设置 chunksize 后，read_csv 返回一个可迭代的 TextFileReader 对象，每次只载入一块（比如 10,000 行），处理完立即释放内存。

示例：

FineVoice语音克隆

免费在线语音克隆，1 分钟克隆你的声音，保留口音和所有细微差别。

下载

for chunk in pd.read_csv('big_file.csv', chunksize=10000):
    # 对每块做清洗、聚合、写入数据库等操作
    processed = chunk.dropna().groupby('category').sum()
    # 不要直接 pd.concat 所有 chunk！除非真需要全量 DataFrame

chunksize 值不是越大越好，建议从 5000–50000 试起，观察内存峰值
避免在循环里累积 list.append(chunk) 再 pd.concat，这会重新吃光内存
适合流式处理：统计、过滤、导出子集、写入数据库/Parquet

2. 用 usecols 只读必要列

很多大 CSV 有几十上百列，但你真正用到的可能就 3–5 列。用 usecols 提前指定列名或列索引，pandas 就不会为其他列分配内存和解析器。

示例：

# 按列名选
df = pd.read_csv('big_file.csv', usecols=['id', 'user_id', 'amount', 'ts'])
<h1>按位置选（更快，尤其列数极多时）</h1><p>df = pd.read_csv('big_file.csv', usecols=[0, 2, 5, 7])

比读完再 df[['a','b']] 节省内存 30%–70%，越宽的文件收益越明显
配合 dtype 使用效果更佳（见下条）
如果列名含空格或特殊字符，优先用整数索引方式指定

3. 用 dtype 显式声明数据类型

pandas 默认把数字列当 float64、字符串当 object（即 Python str），非常吃内存。用 dtype 强制指定更紧凑的类型，能大幅减重。

示例：

dtypes = {
    'user_id': 'uint32',     # 比 int64 节省一半空间
    'status': 'category',    # 重复值多的字符串列首选
    'amount': 'float32',     # 精度够用就别用 float64
    'is_active': 'boolean'   # pandas 1.0+ 支持，比 object 轻得多
}
<p>df = pd.read_csv('big_file.csv', usecols=['user_id','status','amount','is_active'], dtype=dtypes)

category 对低基数字符串（如状态、地区、分类）压缩率极高，常达 5–10 倍
数值列优先用 int32/uint32、float32，确认数据范围不溢出即可
避免 object 类型——它是内存黑洞，尤其是长文本列，考虑用 str + low_memory=False 或提前 converters

4. 用 low_memory=False + dtype 避免类型推断错误

默认 low_memory=True 会让 pandas 分块推断每块的 dtype，再合并时可能报 dtype inconsistent 错误，还会触发额外内存拷贝。设为 False 后，pandas 一次性扫描首行+样本行确定 dtype，更稳定、更省内存（尤其配合显式 dtype）。

示例：

df = pd.read_csv(
    'big_file.csv',
    usecols=['user_id', 'score', 'tag'],
    dtype={'user_id': 'uint32', 'score': 'float32', 'tag': 'category'},
    low_memory=False
)

必须和 dtype 配合使用才有意义；单独设 low_memory=False 可能更耗内存
适用于列类型明确、且首几行能代表整体分布的文件
若文件首行有脏数据（如空值、异常格式），可加 skiprows=1 或先用小样本来 infer_dtype

5. 用 skiprows / nrows + iterator 快速探查与采样

读大文件前，常需先看结构、统计、抽样。不用全读，用这几个参数快速获取信息：

nrows=10000：只读前 N 行，快速建模/调试
skiprows=lambda x: x % 100 != 0：按规则跳行，实现均匀抽样（如每 100 行取 1 行）
iterator=True（旧版，现推荐 chunksize）：返回迭代器，适合手动控制

抽样示例（取约 1% 数据）：

# 随机抽样（内存友好）
df_sample = pd.read_csv('big_file.csv', skiprows=lambda i: i > 0 and np.random.random() > 0.01)
<h1>或更稳的行号抽样（需预估总行数）</h1><p>df_sample = pd.read_csv('big_file.csv', skiprows=lambda i: i % 100 != 0, nrows=10000)

抽样分析阶段绝不调 read_csv(...) 无限制读取
用 head -n 1000 big_file.csv > sample.csv 配合 shell 更快（Linux/macOS）
结合 usecols + dtype，抽样内存开销可压到 MB 级

不复杂但容易忽略：参数之间是协同生效的。单用 chunksize 不如 chunksize + usecols + dtype 组合；单设 dtype 也不如 dtype + low_memory=False 稳定。实际中建议从「usecols + dtype」起步，再按需加 chunksize 或 nrows 控制粒度。

Python代码被卡住怎么调试_利用Py-Spy动态附加到正在运行的进程生成火焰图分析死锁位置

Python配置文件热加载_配置变更生效机制

如何彻底卸载 uv Python 包管理工具

使用 subprocess.run 执行 ping 命令时卡死的解决方案

使用 subprocess.run 执行 ping 命令时进程挂起的解决方案

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

338

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言数据类型

本专题整合了c语言数据类型相关内容，阅读专题下面的文章了解更多详细内容。

138

2026.02.12

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1567

2023.10.24

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板