0

0

Python 大文件逐行处理的正确方式

舞夢輝影

舞夢輝影

发布时间:2026-01-29 17:42:09

|

444人浏览过

|

来源于php中文网

原创

不能直接用readlines()读大文件,因为它会将整个文件一次性加载进内存导致MemoryError;应使用for line in f逐行惰性读取,内存占用仅取决于最长行。

python 大文件逐行处理的正确方式

为什么不能直接用 readlines() 读大文件

因为 readlines() 会把整个文件一次性加载进内存,生成一个包含所有行的列表。哪怕文件只有几百 MB,也可能触发 MemoryError,尤其在内存受限的服务器或容器里。这不是速度问题,是根本不可行。

正确做法是让 Python 按需读取——也就是利用文件对象本身的迭代器协议,它天然支持逐行、惰性读取,内存占用只跟最长那一行有关。

  • ✅ 推荐:for line in f: —— 最简洁、最省内存、最 Pythonic
  • ⚠️ 可选:f.readline() —— 需手动循环,适合需要精细控制读取逻辑的场景(比如跳过前 N 行后再处理)
  • ❌ 避免:f.readlines()f.read().splitlines() —— 全量加载,无一例外

如何安全处理带编码和换行符的超长行

大文件常来自日志、CSV 或爬虫导出,可能混用 \r\n\n,甚至含 BOM 或非 UTF-8 编码(如 GBK)。直接 open() 不指定参数容易报 UnicodeDecodeError 或读错内容。

关键不是“能不能读”,而是“读出来是不是你想要的那行”。建议显式声明编码,并用 newline='' 把换行符交给 Python 自己处理(避免误判 CRLF):

立即学习Python免费学习笔记(深入)”;

with open('huge.log', encoding='utf-8-sig', newline='') as f:
    for line in f:
        line = line.rstrip('\r\n')  # 去掉换行符,保留行内\r\n(如日志中的转义)
        process(line)
  • utf-8-sig 自动跳过 UTF-8 BOM,比纯 utf-8 更鲁棒
  • newline='' 禁用 universal newlines 的自动转换,防止某些边缘情况(如二进制混合文本)误切行
  • rstrip('\r\n')strip() 更精准:不误删行首尾有意义的空格或制表符

需要跳过头部或按块处理时怎么写才不崩

有些大文件有固定头(如 CSV 表头、JSON 数组外层),或者你想每 1000 行做一次批量写入/统计。这时不能先 list(f) 再切片,而要用迭代器工具或手动计数。

两种稳妥方式:

Vuex参考手册 中文CHM版
Vuex参考手册 中文CHM版

Vuex是一个专门为Vue.js应用设计的状态管理模型 + 库。它为应用内的所有组件提供集中式存储服务,其中的规则确保状态只能按预期方式变更。它可以与 Vue 官方开发工具扩展(devtools extension) 集成,提供高级特征,比如 零配置时空旅行般(基于时间轴)调试,以及状态快照 导出/导入。本文给大家带来Vuex参考手册,需要的朋友们可以过来看看!

下载
  • 跳过前 N 行:itertools.islice(f, N, None) —— 不缓存,不额外内存开销
  • 分批读取:itertools.islice(f, batch_size) 套在 while 循环里,每次取一批

示例:跳过 CSV 表头,每 500 行批量插入数据库

import itertools

with open('data.csv', encoding='utf-8') as f: next(f) # 跳过第一行(更直观,比 islice(1) 更易读) while True: batch = list(itertools.islice(f, 500)) if not batch: break insert_batch_to_db(batch) # batch 是 500 个 str,已去换行符

注意:list(islice(...)) 这一步会把这批行全载入内存,但总量可控(500 × 平均行长),远小于全文件加载。

yield 封装成生成器后反而变慢?

有人把逐行读取封装成生成器函数,比如 def read_lines(path): ... yield line,本意是复用,但发现性能下降。原因通常是:生成器调用本身有开销,且如果后续处理本身很简单(如只做字符串查找),函数调用成本可能超过收益。

真实瓶颈从来不在“是否用了生成器”,而在「磁盘 I/O 是否被掩盖」和「每行处理是否阻塞」:

  • ✅ 适合封装:每行要发 HTTP 请求、查数据库、调用外部命令——这些耗时操作天然掩盖生成器开销
  • ❌ 过度封装:每行只做 line.startswith()json.loads() —— 直接 for line in f: 更快
  • ⚠️ 注意点:生成器里别在 yield 前做重操作(如解析整行 JSON),否则会卡住迭代流;应 yield raw_line,由调用方决定何时解析

真正影响吞吐的是系统缓冲区大小、磁盘随机/顺序读性能、以及你的处理逻辑是否让 CPU 等待 I/O——而不是 for 循环写在哪一层。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

419

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

535

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

311

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

77

2025.09.10

while的用法
while的用法

while的用法是“while 条件: 代码块”,条件是一个表达式,当条件为真时,执行代码块,然后再次判断条件是否为真,如果为真则继续执行代码块,直到条件为假为止。本专题为大家提供while相关的文章、下载、课程内容,供大家免费下载体验。

97

2023.09.25

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

212

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1502

2023.10.24

java入门学习合集
java入门学习合集

本专题整合了java入门学习指南、初学者项目实战、入门到精通等等内容,阅读专题下面的文章了解更多详细学习方法。

1

2026.01.29

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号