Python 大数据量统计的内存控制技巧

冷漠man

发布时间：2026-02-22 21:58:03

281人浏览过

来源于php中文网

原创

用pandas.read_csv避免oom需分块读取（chunksize）、精简数据类型（如category/int32）、跳过无用列（usecols）、关闭自动索引（index_col=false）；频次统计优先groupby().size()配合分块，慎用value_counts；避免多次pd.concat，改用预存结果后单次合并；超大数据可哈希分桶落盘或用sqlite3临时聚合。

python 大数据量统计的内存控制技巧

用 `pandas.read_csv` 时怎么避免 OOM？

读大文件直接 read_csv 常常一跑就爆内存，不是数据真有那么大，而是默认参数把整张表全塞进内存还建了冗余索引。关键在分块 + 类型精简。

加 chunksize 参数，比如 chunksize=50000，返回的是可迭代的 TextFileReader，逐块处理，不累积
用 dtype 显式指定列类型：'category' 替代重复字符串，'int32' 或 'float32' 替代默认的 int64/float64
跳过不用的列：加 usecols，比如只统计销量，就别读用户地址、备注这些字段
关闭索引自动构建：index_col=False，除非你真要用它做 merge 或 groupby

统计聚合该用 `groupby` 还是 `value_counts`？

value_counts 看似方便，但底层会先构建完整 Series 再去重计数，对超长列（如百亿级日志 ID）极易撑爆内存。而 groupby(...).size() 可配合 chunksize 流式累加。

单列频次统计优先用 df[col].value_counts(dropna=False)，但前提是这列能放进内存；否则改用分块 + collections.Counter 手动合并
多列组合统计必须走 groupby，且要加 as_index=False 避免生成高维索引对象
如果只是求和/均值等简单聚合，考虑用 agg 指定函数，比先 groupby 再调用方法更省内存（减少中间 DataFrame 构建）

为什么 `pd.concat` 是内存杀手？

很多人习惯把每块结果 append 到 list，最后一次性 pd.concat，这会导致 N 次内存拷贝：每 concat 一次，Python 就新建一个更大 DataFrame，旧的还没被 GC 掉。

动软商城系统

动软商城系统是一款优秀的网上商城系统，经营者只需要轻松的后台操作，就可以马上拥有功能强的网上销售系统，同时动软商城系统提供多样的营销手段帮助您成功打开网上销售市场。动软的模版界面机制，可以轻松的搭建出风格各异的界面，最大限度的满足经营者的要求，还拥有专业SEO优化系统，大大提高网页被搜索引擎抓取收录的几率。动软商城系统先进的流程控制技术全面促进进、销、存等系统的协同，支持企业数据整合和网络资源信息

下载

改用预分配 list 存每块的聚合结果（比如每个 chunk 返回一行 pd.Series），最后只 concat 一次
更稳的做法：用 functools.reduce + pd.DataFrame.add（适用于相同结构的汇总表）
实在要拼接，确保所有 chunk 的 dtypes 一致，否则 concat 会隐式升格（比如 int32 → int64），悄悄吃掉更多内存

磁盘临时聚合：当内存连单块都扛不住时

有些场景，比如上百 GB 日志按 IP 统计访问次数，连一块 chunksize=100000 的 value_counts 都会 OOM——这时候得把中间状态落地。

立即学习“Python免费学习笔记（深入）”；

用 hashlib.md5 对 key 做哈希取模，拆成多个临时文件（比如 100 个 tmp_00.csv ~ tmp_99.csv），每块只写对应桶
各临时文件分别 read_csv + groupby，再合并结果
Python 标准库 sqlite3 也能扛住：建内存数据库或小文件 DB，用 INSERT OR REPLACE 累加计数，比 pandas 更低开销

真实项目里最常被忽略的，是列类型没提前压缩、chunksize 设得太大、以及以为 del df 就能立刻释放内存——其实得配合 gc.collect()，而且 pandas 底层的内存池不一定交还给系统。

Python 协程并发数控制的实现方法

基于 Python 的数据模型驱动开发：Pydantic 的进阶用法

Python sled 的 Rust KV 存储 Python 绑定

Python 测试失败信息的优化方式

Python 广播发现的 SSDP 协议

相关标签:

python 大数据 pandas 数据类型字符串 float32 append 对象数据库

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 多进程退出与清理机制下一篇：暂无

作者最新文章

SQL PostgreSQL 的 pg_repack vs pg_squeeze 的表重整工具性能与功能对比