高效导入 MariaDB 大数据集：低内存占用的 Python 实现方案

花韻仙語

发布时间：2026-01-21 10:03:42

469人浏览过

来源于php中文网

原创

高效导入 MariaDB 大数据集：低内存占用的 Python 实现方案

本文介绍如何使用 python-mariadb 连接器配合流式读取、无缓冲游标与二进制协议，以极低内存开销（稳定 ≤10gb）将数亿行 mariadb 数据直接加载为 pandas dataframe，避免 `fetchall()` 导致的内存峰值爆炸。

在处理大规模 MariaDB 数据（如 5 亿行 × 2 列整型）时，传统 cursor.fetchall() + pd.DataFrame() 流程极易引发内存激增——实测中仅 fetchall() 阶段即可占用高达 90GB 内存。根本原因在于：Python 的 int 对象（PyLong）存在显著内存开销（每值 ≥16 字节基础结构 + 动态存储），远超底层 C 类型（如 INT 仅需 4 字节）。因此，关键不是“如何更快转 DataFrame”，而是“如何避免一次性全量加载”。

以下为经过生产验证的低内存导入方案，兼顾效率、类型稳定性与安全性：

✅ 核心优化策略

禁用缓冲游标：防止驱动层额外缓存全部结果集

cursor = connection.cursor(buffered=False)  # 必须！默认 buffered=True 会预加载

启用二进制协议（强烈推荐）：绕过字符串序列化，直接传输原始字节

立即学习“Python免费学习笔记（深入）”；

# 先评估字段长度（MariaDB CLI 中执行）
# SELECT AVG(LENGTH(col1)), AVG(LENGTH(col2)) FROM my_table;
# 若 INT/BIGINT 平均长度 >4/>8，则启用 binary=True
cursor = connection.cursor(buffered=False, binary=True)

分块流式获取 + 零拷贝拼接：用 fetchmany() 替代 fetchall()，并利用 pd.concat(..., copy=False) 避免重复内存分配

import pandas as pd
import mariadb

connection = mariadb.connect(
    user='your_user',
    host='localhost',
    database='my_database',
    # 可选：设置 read_timeout 防止长查询中断
    read_timeout=3600
)
cursor = connection.cursor(buffered=False, binary=True)
cursor.execute("SELECT column_1, column_2 FROM my_table")

# 初始化空 DataFrame（显式指定 dtype 提升后续效率）
df = pd.DataFrame(columns=['column_1', 'column_2'], dtype='int64')

chunk_size = 2**20  # 推荐 1M 行/批；过大仍可能触发 GC 压力
while True:
    rows = cursor.fetchmany(chunk_size)
    if not rows:
        break
    # 关键：concat 时禁用深拷贝，且传入列名确保 dtype 一致
    chunk_df = pd.DataFrame(rows, columns=df.columns, dtype='int64')
    df = pd.concat([df, chunk_df], ignore_index=True, copy=False)

cursor.close()
connection.close()

⚠️ 注意事项与避坑指南

类型自动转换问题：fetchmany() 返回的元组中整数可能被误判为 float（尤其当部分值为 NULL 或混合类型时）。解决方案：

靠岸学术
一款集翻译，阅读，文献管理于一体的英文文献阅读器

下载
- 在 pd.DataFrame() 构造时强制指定 dtype（如 dtype={'column_1': 'int64', 'column_2': 'int64'}）；
- 或使用 df = df.astype({'column_1': 'int64', 'column_2': 'int64'}, errors='ignore') 后置修正。
不要用 df.append()：该方法已弃用，且内部强制复制，大幅增加内存压力。始终使用 pd.concat() + copy=False。
pd.read_sql() 的局限性：虽然支持 chunksize，但其底层仍依赖 SQLAlchemy 兼容层，对 python-mariadb 会触发警告且实际内存控制不如原生游标精细。不推荐用于极致内存敏感场景。
权限与路径安全：避免导出中间文件（如 CSV）。ProtectHome=true 是合理安全策略，不应为数据导入妥协系统配置。
性能权衡建议：chunk_size = 2^20 ~ 2^22（约 100 万–400 万行）通常在吞吐与内存间取得最佳平衡；过小（如 1000 行）会因频繁 I/O 拖慢整体速度，过大则逼近单次 fetchall() 风险。

通过以上组合策略，实测 5 亿行整型数据导入全程内存占用稳定在 8–10GB，较原始方案（90GB）降低 90%+，同时保持代码简洁与可维护性。核心思想是：让数据库做它擅长的事（高效检索），让 Python 做它擅长的事（流式处理），绝不让两者在内存中“堆叠”数据副本。

Python 的 copyreg 模块完全适用于自定义类的序列化定制

Python 的 copyreg 模块完全适用于用户自定义类的序列化定制

Python 的 copyreg 模块完全支持用户自定义类的序列化定制

Pyomo调试指南：修复因无序集合导致的约束逻辑错误

SHA1 实现与内置 hashlib 结果不一致的调试与修复指南

相关标签:

python 大数据字节 csv 内存占用 red pandas Float NULL 整型字符串 int 堆 append copy 对象数据库 mariadb

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何正确实现 InfoNCE 损失函数以避免张量形状不匹配问题下一篇：如何在删除嵌套字典中不符合条件的项后重编号键值

作者最新文章

如何精准裁剪 div 以精确覆盖图像区域

2026-03-12 15:29

vscode怎么选中同一个标签

2026-03-12 15:36

Laravel Blade 组件中图片路径失效的根源与正确解决方案

2026-03-12 15:43

如何在 Windows 上实现文件独占锁（Go 语言兼容方案）

2026-03-12 16:13

Laravel Blade 组件中图片路径失效的根源与解决方案

2026-03-12 16:24

《宿命残响》德国开发者起诉发行商不作为 M站91分JRPG

2026-03-12 16:35

如何基于子字符串去重数组中的字符串元素

2026-03-12 16:39

JavaScript 中数组与 TypedArray 的内存分配机制解析

2026-03-12 16:55

PHP 中动态变量名的正确用法：避免 $$ 误用与数组赋值陷阱

2026-03-12 17:13

《狼人：内在野兽》Steam版5月6日发售性感女主上阵

2026-03-12 17:31

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python 时间序列分析与预测

本专题专注讲解 Python 在时间序列数据处理与预测建模中的实战技巧，涵盖时间索引处理、周期性与趋势分解、平稳性检测、ARIMA/SARIMA 模型构建、预测误差评估，以及基于实际业务场景的时间序列项目实操，帮助学习者掌握从数据预处理到模型预测的完整时序分析能力。

2025.12.04

Python 数据清洗与预处理实战

本专题系统讲解 Python 在数据清洗与预处理中的核心技术，包括使用 Pandas 进行缺失值处理、异常值检测、数据格式化、特征工程与数据转换，结合 NumPy 高效处理大规模数据。通过实战案例，帮助学习者掌握如何处理混乱、不完整数据，为后续数据分析与机器学习模型训练打下坚实基础。

2026.01.31

css中float用法

css中float属性允许元素脱离文档流并沿其父元素边缘排列，用于创建并排列、对齐文本图像、浮动菜单边栏和重叠元素。想了解更多float的相关内容，可以阅读本专题下面的文章。

595

2024.04.28

C++中int、float和double的区别

本专题整合了c++中int和double的区别，阅读专题下面的文章了解更多详细内容。

108

2025.10.23

c语言中null和NULL的区别

c语言中null和NULL的区别是：null是C语言中的一个宏定义，通常用来表示一个空指针，可以用于初始化指针变量，或者在条件语句中判断指针是否为空；NULL是C语言中的一个预定义常量，通常用来表示一个空值，用于表示一个空的指针、空的指针数组或者空的结构体指针。

254

2023.09.22

java中null的用法

在Java中，null表示一个引用类型的变量不指向任何对象。可以将null赋值给任何引用类型的变量，包括类、接口、数组、字符串等。想了解更多null的相关内容，可以阅读本专题下面的文章。

1089

2024.03.01

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

761

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

热门下载

网站特效

网站源码

网站素材

前端模板