Python怎么合并多个TXT_循环读取各文件并写入一个总文件

P粉602998670

发布时间：2026-03-12 17:51:11

756人浏览过

来源于php中文网

原创

最稳妥方案是用 open() 逐行读写，统一 utf-8 编码+errors='ignore'容错，手动处理换行；pathlib 批量匹配.txt 文件更可靠；大文件优先用 shutil.copyfileobj() 流式拷贝。

python怎么合并多个txt_循环读取各文件并写入一个总文件

用 `open()` 逐个读取再写入总文件最稳妥

直接拼接所有 .txt 文件内容，不依赖第三方库，兼容 Python 3.6+，也避开了编码不一致导致的乱码或中断。关键不是“快”，而是“不出错”。

常见错误现象：UnicodeDecodeError: 'gbk' codec can't decode byte 0xa2 —— 某个文件用了 UTF-8 编码，而系统默认用 gbk 打开；或者某个文件末尾缺换行，导致两段文字粘连。

统一用 encoding='utf-8' 打开每个文件，加 errors='ignore' 容错（跳过无法解码的字节）
每次读完一行就立刻写入总文件，不把全部内容载入内存 —— 防止大文件撑爆内存
在每段内容后手动加 \n，避免相邻文件最后一行和下个文件第一行连在一起

with open('all.txt', 'w', encoding='utf-8') as out_f:
    for filename in ['a.txt', 'b.txt', 'c.txt']:
        try:
            with open(filename, 'r', encoding='utf-8', errors='ignore') as f:
                for line in f:
                    out_f.write(line.rstrip('\n') + '\n')
        except FileNotFoundError:
            print(f"跳过不存在的文件：{filename}")

用 `pathlib` 批量匹配 `*.txt` 文件更省心

硬编码文件名容易漏、难维护；用 pathlib 自动扫描目录，还能过滤掉隐藏文件或非文本文件。

使用场景：TXT 文件在同一个文件夹下，比如 ./data/，你只想合并其中所有普通 .txt，不包括 ~temp.txt 或 notes.TXT（大小写不敏感）。

立即学习“Python免费学习笔记（深入）”；

Path('data').glob('*.txt') 只匹配小写 .txt；要忽略大小写，得用 iterdir() + 手动 .suffix.lower() == '.txt'
注意 glob() 不递归子目录；需要递归请改用 rglob()
Windows 下路径分隔符是 \，但 pathlib 自动处理，不用自己拼接字符串

from pathlib import Path
txt_files = [f for f in Path('data').iterdir() if f.is_file() and f.suffix.lower() == '.txt']
for f in sorted(txt_files):  # 排序保证顺序可预期
    with open(f, 'r', encoding='utf-8', errors='ignore') as src:
        with open('all.txt', 'a', encoding='utf-8') as dst:
            dst.write(src.read().rstrip('\n') + '\n')

用 `shutil.copyfileobj()` 合并大文件更省内存

当单个 TXT 文件超过 100MB，用 f.read() 会一次性加载进内存；而 copyfileobj() 是流式拷贝，固定缓冲区，默认 64KB，适合大文件。

Sora

Sora是OpenAI发布的一种文生视频AI大模型，可以根据文本指令创建现实和富有想象力的场景。

下载

性能影响：对小文件几乎没差别；对几百 MB 的日志文件，内存占用能从 GB 级降到几 MB。

只能用于二进制模式，所以得先用 open(..., 'rb')，总文件也要用 'ab'
写入前需手动处理换行：因为二进制读不会自动去掉 \r\n，且追加时可能缺分隔
别忘了最后把总文件从二进制转成文本再统一处理编码问题（通常不如直接文本模式稳）

import shutil
with open('all.txt', 'wb') as dst:
    for f in txt_files:
        with open(f, 'rb') as src:
            shutil.copyfileobj(src, dst)
        dst.write(b'\n')  # 每个文件后加一个换行

合并后校验行数和文件大小是否合理

合完发现内容变少、乱码、或某段缺失，往往不是代码问题，而是源文件本身有 BOM、空行、不可见控制字符，或者读写模式没对齐。

容易被忽略的地方：

UTF-8-BOM 文件（如记事本另存为的“UTF-8”）开头有 \ufeff，会导致第一行多出怪字符；用 encoding='utf-8-sig' 自动剥离
Linux 和 Windows 换行符不同（\n vs \r\n），混合写入可能导致某些编辑器显示异常；统一用 \n 最安全
合并前先用 file -i *.txt（Linux/macOS）或 PowerShell Get-Content -Encoding Byte 快速看编码，比盲试强

事情说清了就结束

Python KNN怎么写_K近邻算法核心原理与多种距离度量计算公式选择

Python防止命令注入_subprocess安全用法

Python virtualenv怎么用_virtualenv虚拟环境安装与激活方法

Python循环里的else怎么用_正常结束与被打断的逻辑处理

Python协程里的同步代码阻塞_异步函数中调用耗时同步函数导致整个事件循环卡死解决

相关标签:

python 字符串递归循环 bom windows macos linux

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python文件写入没保存怎么办_flush()方法强制刷新缓冲区下一篇：Python断言怎么写_assert语句在代码调试与校验中的作用

作者最新文章

mysql如何使用加密与解密函数_mysql md5/sha2/aes_encrypt

2026-03-12 11:13

如何在Java中过滤List中的空值_Stream.filter与Objects.nonNull结合

2026-03-12 11:13

Golang指针基础：什么时候该使用指针 Go语言指针传递性能评估

2026-03-12 11:14

CSS如何实现带有粒子感的按钮点击过渡_结合伪元素与transition动画配合

2026-03-12 11:14

CSS如何实现带自适应文本的圆形标签_通过Aspect-ratio固定比例css

2026-03-12 11:15

如何在Golang中利用Build Tags实现按需编译 Go语言条件编译文件名规则

2026-03-12 11:15

Django怎么跑起来_runserver命令与本地开发服务器启动

2026-03-12 11:16

CSS如何实现多层重叠的卡片布局_通过逐级增加z-index与relative偏移

2026-03-12 11:17

NumPy如何按权重抽样_np.random.choice()的p参数设置概率分布

2026-03-12 11:17

大型复杂数据库如何进行逻辑模型转为物理模型_模块化管理方案

2026-03-12 11:16

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

js 字符串转数组

js字符串转数组的方法：1、使用“split()”方法；2、使用“Array.from()”方法；3、使用for循环遍历；4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容，供大家免费下载体验。

760

2023.08.03

js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容，供大家免费下载体验。

221

2023.09.04

java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友，请阅读本专题下面的的有关文章，欢迎大家来php中文网学习。

1566

2023.10.24

字符串介绍

字符串是一种数据类型，它可以是任何文本，包括字母、数字、符号等。字符串可以由不同的字符组成，例如空格、标点符号、数字等。在编程中，字符串通常用引号括起来，如单引号、双引号或反引号。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

649

2023.11.24

java读取文件转成字符串的方法

Java8引入了新的文件I/O API，使用java.nio.file.Files类读取文件内容更加方便。对于较旧版本的Java，可以使用java.io.FileReader和java.io.BufferedReader来读取文件。在这些方法中，你需要将文件路径替换为你的实际文件路径，并且可能需要处理可能的IOException异常。想了解更多java的相关内容，可以阅读本专题下面的文章。

1228

2024.03.22

php中定义字符串的方式

php中定义字符串的方式：单引号；双引号；heredoc语法等等。想了解更多字符串的相关内容，可以阅读本专题下面的文章。

1204

2024.04.29

go语言字符串相关教程

本专题整合了go语言字符串相关教程，阅读专题下面的文章了解更多详细内容。

192

2025.07.29

c++字符串相关教程

本专题整合了c++字符串相关教程，阅读专题下面的文章了解更多详细内容。

131

2025.08.07

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板