用pandas.read_csv读取大文件时,应组合chunksize、usecols、dtype、low_memory=False等参数分块读取、只加载必要列、指定紧凑数据类型、避免类型推断错误,可显著降低内存占用。

用 pandas.read_csv 读取大文件时,内存爆掉很常见——但其实只要合理组合几个关键参数,就能把内存占用压到很低,甚至稳定读完几个 GB 的 CSV。核心思路是:不一次性加载全部数据、跳过无用列、控制数据类型、分块处理、延迟解析。
1. 用 chunksize 分块读取 + 迭代处理
这是最常用也最有效的降内存手段。设置 chunksize 后,read_csv 返回一个可迭代的 TextFileReader 对象,每次只载入一块(比如 10,000 行),处理完立即释放内存。
示例:
for chunk in pd.read_csv('big_file.csv', chunksize=10000):
# 对每块做清洗、聚合、写入数据库等操作
processed = chunk.dropna().groupby('category').sum()
# 不要直接 pd.concat 所有 chunk!除非真需要全量 DataFrame
- chunksize 值不是越大越好,建议从 5000–50000 试起,观察内存峰值
- 避免在循环里累积
list.append(chunk)再pd.concat,这会重新吃光内存 - 适合流式处理:统计、过滤、导出子集、写入数据库/Parquet
2. 用 usecols 只读必要列
很多大 CSV 有几十上百列,但你真正用到的可能就 3–5 列。用 usecols 提前指定列名或列索引,pandas 就不会为其他列分配内存和解析器。
示例:
# 按列名选
df = pd.read_csv('big_file.csv', usecols=['id', 'user_id', 'amount', 'ts'])
按位置选(更快,尤其列数极多时)
df = pd.read_csv('big_file.csv', usecols=[0, 2, 5, 7])
- 比读完再
df[['a','b']]节省内存 30%–70%,越宽的文件收益越明显 - 配合
dtype使用效果更佳(见下条) - 如果列名含空格或特殊字符,优先用整数索引方式指定
3. 用 dtype 显式声明数据类型
pandas 默认把数字列当 float64、字符串当 object(即 Python str),非常吃内存。用 dtype 强制指定更紧凑的类型,能大幅减重。
示例:
dtypes = {
'user_id': 'uint32', # 比 int64 节省一半空间
'status': 'category', # 重复值多的字符串列首选
'amount': 'float32', # 精度够用就别用 float64
'is_active': 'boolean' # pandas 1.0+ 支持,比 object 轻得多
}
df = pd.read_csv('big_file.csv', usecols=['user_id','status','amount','is_active'], dtype=dtypes)
-
category对低基数字符串(如状态、地区、分类)压缩率极高,常达 5–10 倍 - 数值列优先用
int32/uint32、float32,确认数据范围不溢出即可 - 避免
object类型——它是内存黑洞,尤其是长文本列,考虑用str+low_memory=False或提前converters
4. 用 low_memory=False + dtype 避免类型推断错误
默认 low_memory=True 会让 pandas 分块推断每块的 dtype,再合并时可能报 dtype inconsistent 错误,还会触发额外内存拷贝。设为 False 后,pandas 一次性扫描首行+样本行确定 dtype,更稳定、更省内存(尤其配合显式 dtype)。
示例:
df = pd.read_csv(
'big_file.csv',
usecols=['user_id', 'score', 'tag'],
dtype={'user_id': 'uint32', 'score': 'float32', 'tag': 'category'},
low_memory=False
)
- 必须和
dtype配合使用才有意义;单独设low_memory=False可能更耗内存 - 适用于列类型明确、且首几行能代表整体分布的文件
- 若文件首行有脏数据(如空值、异常格式),可加
skiprows=1或先用小样本来 infer_dtype
5. 用 skiprows / nrows + iterator 快速探查与采样
读大文件前,常需先看结构、统计、抽样。不用全读,用这几个参数快速获取信息:
-
nrows=10000:只读前 N 行,快速建模/调试 -
skiprows=lambda x: x % 100 != 0:按规则跳行,实现均匀抽样(如每 100 行取 1 行) -
iterator=True(旧版,现推荐chunksize):返回迭代器,适合手动控制
抽样示例(取约 1% 数据):
# 随机抽样(内存友好)
df_sample = pd.read_csv('big_file.csv', skiprows=lambda i: i > 0 and np.random.random() > 0.01)
或更稳的行号抽样(需预估总行数)
df_sample = pd.read_csv('big_file.csv', skiprows=lambda i: i % 100 != 0, nrows=10000)
- 抽样分析阶段绝不调
read_csv(...)无限制读取 - 用
head -n 1000 big_file.csv > sample.csv配合 shell 更快(Linux/macOS) - 结合
usecols+dtype,抽样内存开销可压到 MB 级
不复杂但容易忽略:参数之间是协同生效的。单用 chunksize 不如 chunksize + usecols + dtype 组合;单设 dtype 也不如 dtype + low_memory=False 稳定。实际中建议从「usecols + dtype」起步,再按需加 chunksize 或 nrows 控制粒度。










