0

0

Python大文件读取方案_逐行与分块处理技巧【技巧】

舞夢輝影

舞夢輝影

发布时间:2025-12-27 23:38:02

|

575人浏览过

|

来源于php中文网

原创

大文件读取应避免readlines(),改用逐行迭代或分块读取;需指定encoding和errors处理编码异常;二进制文件用'rb'模式;linecache仅适用于随机查少数行。

python大文件读取方案_逐行与分块处理技巧【技巧】

大文件读取时内存爆掉,是因为用了 readlines()

Python 默认的 readlines() 会把整个文件加载进内存,哪怕只是想统计行数或过滤几行。1GB 的日志文件可能瞬间吃光 4GB 内存——这不是代码写错了,是调用方式不对。

真正安全的做法是让 Python 按需拉取,而不是“一口吞”。核心就两条路:逐行迭代(适合文本行结构清晰)、分块读取(适合二进制或无固定换行符的场景)。

  • for line in open(...) 是最轻量的逐行方案,底层走迭代器,内存占用≈单行长度
  • 别用 readlines()read().split('\n'),它们都强制载入全部内容
  • 如果文件含超长行(比如单行几百MB的 JSON Line 变体),逐行也不安全,得切回分块

逐行处理必须加 encoding 和异常跳过

生产环境的大文件常混着编码错误(比如日志里插了二进制 dump、Windows 与 Linux 换行符交错)。不处理就会在某一行直接抛 UnicodeDecodeError 中断整个流程。

with open('access.log', 'r', encoding='utf-8', errors='ignore') as f:
    for line in f:
        if not line.strip():
            continue
        # 处理逻辑
        process_line(line)
  • errors='ignore' 跳过非法字节errors='replace' 用 替代,按需选
  • strip() 判空比 len(line) > 0 更稳妥,能干掉纯空白行和 \r\n\r\n 类型脏数据
  • 别在循环里反复打开/关闭文件,with 块外操作会导致 ValueError: I/O operation on closed file

分块读取要用 read(size),不是 readline()

当文件没有明确换行(如 protobuf 二进制流、拼接的 gzip 块、加密 payload),readline() 会一直卡住直到遇到 \n——这等于失效。此时必须手动控制缓冲区大小。

AI小聚
AI小聚

一站式多功能AIGC创作平台,支持AI绘画、AI视频、AI聊天、AI音乐

下载

立即学习Python免费学习笔记(深入)”;

def read_in_chunks(file_obj, chunk_size=8192):
    while True:
        data = file_obj.read(chunk_size)
        if not data:
            break
        yield data
<p>with open('data.bin', 'rb') as f:
for chunk in read_in_chunks(f, 65536):  # 每次读 64KB
process_chunk(chunk)
  • chunk_size 不是越大越好:32KB ~ 128KB 是多数 SSD 的友好区间;超过 1MB 容易触发 OS 缓存抖动
  • 二进制文件务必用 'rb' 模式,否则 Windows 下可能误截断 \x1A
  • 若需按记录解析(如每条 1024 字节定长),别在 chunk 边界硬切,要缓存跨块的残余字节

linecache 只适合随机查几行,千万别用来遍历

有人看到文档说 linecache.getline(filename, n) 能快速取第 n 行,就以为能用它写个 for 循环遍历——这是典型误用。它内部会为每个文件维护一个全局缓存字典,连续调用 getline 实际上把整文件又悄悄载入内存了。

  • linecache 的唯一合理场景:调试时临时查某几行,比如日志报错说 “line 1234567”,你只想看那一行
  • 它不释放缓存,多次调用不同文件会导致内存只增不减
  • 真要随机访问大文件的多行,应该先用 mmap + 扫描换行符建索引,或者转成数据库(SQLite + FTS5)

逐行和分块不是非此即彼的选择,关键看数据结构是否“可流式切割”。很多失败案例,其实卡在没意识到某类日志既不是纯文本也不是纯二进制——比如带嵌套 JSON 的混合日志,得先分块识别边界,再对每块做 JSON 流解析。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

547

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

335

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

44

2026.01.06

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

549

2023.12.01

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

76

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
PostgreSQL 教程
PostgreSQL 教程

共48课时 | 10.6万人学习

Git 教程
Git 教程

共21课时 | 4.2万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号