0

0

Python 数据分块处理大数据集

舞夢輝影

舞夢輝影

发布时间:2025-09-22 09:46:01

|

509人浏览过

|

来源于php中文网

原创

分块处理大数据可避免内存溢出。使用pandas的chunksize参数可逐块读取大型CSV文件,适合聚合清洗;通过生成器可自定义分块逻辑,实现懒加载;结合joblib能并行处理独立数据块,提升计算效率。关键在于根据数据规模和任务选择合适策略,并及时释放内存、保存中间结果。

python 数据分块处理大数据集

处理大数据集时,直接将整个数据加载到内存中往往不可行。Python 提供了多种方式对数据进行分块处理,既能节省内存,又能高效完成计算任务。核心思路是:按批次读取和处理数据,而不是一次性加载全部内容。

使用 pandas 分块读取大型 CSV 文件

当面对 GB 级别的 CSV 文件时,pandas 的 read_csv 支持 chunksize 参数,可以逐块读取数据。

示例代码:

import pandas as pd

chunk_size = 10000 file_path = 'large_data.csv'

for chunk in pd.read_csv(file_path, chunksize=chunk_size):

对每一块数据进行处理

processed = chunk.dropna().groupby('category').sum()
print(processed)

立即学习Python免费学习笔记(深入)”;

这种方式避免内存溢出,适合做聚合、清洗等操作。你可以将结果累加或保存到新文件。

利用生成器自定义分块逻辑

对于非结构化数据或需要特定分块规则的情况,可以用生成器实现懒加载

TabTab AI
TabTab AI

首个全链路 Data Agent,让数据搜集、处理到深度分析一步到位。

下载

例如,从一个大列表中每次返回 n 条记录:

def chunk_data(data, size):
    for i in range(0, len(data), size):
        yield data[i:i + size]

使用示例

large_list = list(range(100000)) for block in chunk_data(large_list, 5000): print(f"Processing {len(block)} items")

这种方法灵活,适用于任意类型的数据流控制。

结合 joblib 实现并行分块处理

如果每块数据可独立处理,可用 joblib 并行化提升速度。

from joblib import Parallel, delayed

def process_chunk(chunk): return sum(chunk) # 示例操作

data = list(range(100000)) chunked = [data[i:i+10000] for i in range(0, len(data), 10000)]

results = Parallel(n_jobs=-1)(delayed(process_chunk)(c) for c in chunked) total = sum(results) print(f"Total sum: {total}")

充分利用多核 CPU,特别适合数值计算或模型预测类任务。

基本上就这些。关键是根据数据大小和处理目标选择合适的分块策略。不复杂但容易忽略的是:记得及时释放不用的变量,并考虑把中间结果写入磁盘,防止内存堆积。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
Python 时间序列分析与预测
Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧,涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估,以及基于实际业务场景的时间序列项目实操,帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

71

2025.12.04

Python 数据清洗与预处理实战
Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术,包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换,结合 NumPy 高效处理大规模数据。通过实战案例,帮助学习者掌握 如何处理混乱、不完整数据,为后续数据分析与机器学习模型训练打下坚实基础。

1

2026.01.31

堆和栈的区别
堆和栈的区别

堆和栈的区别:1、内存分配方式不同;2、大小不同;3、数据访问方式不同;4、数据的生命周期。本专题为大家提供堆和栈的区别的相关的文章、下载、课程内容,供大家免费下载体验。

398

2023.07.18

堆和栈区别
堆和栈区别

堆(Heap)和栈(Stack)是计算机中两种常见的内存分配机制。它们在内存管理的方式、分配方式以及使用场景上有很大的区别。本文将详细介绍堆和栈的特点、区别以及各自的使用场景。php中文网给大家带来了相关的教程以及文章欢迎大家前来学习阅读。

575

2023.08.10

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

0

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

0

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

1

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
CSS3 教程
CSS3 教程

共18课时 | 5万人学习

PostgreSQL 教程
PostgreSQL 教程

共48课时 | 8.2万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号