0

0

如何安全地在异步 Python 中并发写入多个文件(避免数据损坏)

心靈之曲

心靈之曲

发布时间:2026-01-31 14:03:19

|

264人浏览过

|

来源于php中文网

原创

如何安全地在异步 Python 中并发写入多个文件(避免数据损坏)

本文详解使用 `aiofiles` 替代 `aiofile` 并配合细粒度 `asyncio.lock` 实现线程安全、顺序一致的异步批量文件写入,彻底解决因竞态导致的文件内容错乱、行首截断与覆盖问题。

在异步 I/O 场景中,并发写入多个文件时若缺乏恰当的同步机制,极易引发数据损坏——典型表现为:输出文件中单行文本被随机截断、多线程写入内容相互覆盖、换行符错位,甚至部分写入丢失。您遇到的问题(AIOFile 下 question_output.txt 与 answer_output.txt 数据混乱)根本原因在于:aiofile 的底层实现不保证跨协程的写入原子性,且其 write() 操作并非真正“线程/协程安全”;即使为每个文件单独加锁,也无法阻止两个独立 writer 对同一文件系统位置的无序偏移写入(尤其当未显式控制文件指针或缓冲策略时)。

✅ 正确解法是转向更成熟、社区验证充分的 aiofiles 库,并重构锁策略:

  1. 统一使用单把锁保护所有写入操作
    原代码中为 q_lock 和 a_lock 分别加锁,看似隔离,实则埋下隐患:question_writer.write() 与 answer_writer.write() 可能并发执行,而两个 AIOFile 实例共享底层 OS 文件描述符状态(如当前写入偏移),导致写入位置冲突。改为共用一把 asyncio.Lock(),确保「向 question 文件写一行 + 向 answer 文件写一行」构成一个原子操作单元,从根本上杜绝交错。

  2. 弃用 aiofile,改用 aiofiles
    aiofiles 是基于标准 open() 的异步封装,兼容性高、行为可预测;它通过 loop.run_in_executor() 将阻塞 I/O 提交至线程池,天然规避了 aiofile 在某些平台(尤其是 Windows 或特定文件系统)下因底层 libuv/io_uring 调度引发的偏移错乱。同时,aiofiles.open(..., "w") 默认启用行缓冲(line-buffered),配合 await file.write(...) + await file.flush() 可保障每行写入的完整性。

  3. 移除冗余 fsync(),依赖 aiofiles 的隐式刷新
    原逻辑中调用 writer.fsync() 不仅非必需("w" 模式下 write() 已触发内核缓冲),还可能因频繁强制刷盘拖慢性能。aiofiles 在 close() 时自动 flush,日常写入无需手动 fsync()——除非有强持久化要求(如金融日志),此时应单独设计 flush+fsync 时机。

以下是优化后的核心写入逻辑(含关键注释):

论论App
论论App

AI文献搜索、学术讨论平台,涵盖了各类学术期刊、学位、会议论文,助力科研。

下载

立即学习Python免费学习笔记(深入)”;

import asyncio
import aiofiles
import pandas as pd

async def process_data(model, factory):
    df = pd.read_csv("sitemap_data_raw", header=None, names=["Record"], on_bad_lines="warn").drop_duplicates()

    # ✅ 单锁统管所有写入,确保 Q/A 成对原子写入
    file_lock = asyncio.Lock()

    async def process_batch(rows):
        tasks = [factory.build_qa_chain(model).ainvoke({"chunk": row.Record}) for row in rows]
        return await asyncio.gather(*tasks)

    async def write_batches(q_file, a_file, results):
        for result_batch in results:
            for record in result_batch:
                # ? 锁定整个 Q+A 写入流程,避免交叉
                async with file_lock:
                    await q_file.write(record["question"] + "\n")
                    await a_file.write(record["answer"] + "\n")
                    # ⚠️ 无需 await q_file.flush() — aiofiles 在 close 时自动 flush

    # ✅ 使用 aiofiles.open,语义清晰且行为可靠
    async with aiofiles.open("question_output.txt", "w") as q_file, \
                 aiofiles.open("answer_output.txt", "w") as a_file:
        batch_size = 1000
        for i in range(0, len(df), batch_size):
            batch_rows = df.iloc[i:i+batch_size].itertuples(index=False)
            batch_results = await process_batch(batch_rows)
            await write_batches(q_file, a_file, batch_results)

? 额外建议

  • 若需极致性能,可将多行合并为单次 write()(如 await q_file.write("\n".join(questions) + "\n")),减少系统调用次数;
  • 对超大文件,考虑分块写入 + 定期 await q_file.flush() 防止内存积压;
  • 生产环境务必添加异常处理(try/except 包裹 write_batches),避免锁未释放导致死锁。

综上,并发文件写入的安全基石不是“给每个文件加锁”,而是“让所有相关写入受同一把锁协调”。结合 aiofiles 的稳健实现,即可在保持异步高吞吐的同时,获得字节级精确的输出一致性。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
线程和进程的区别
线程和进程的区别

线程和进程的区别:线程是进程的一部分,用于实现并发和并行操作,而线程共享进程的资源,通信更方便快捷,切换开销较小。本专题为大家提供线程和进程区别相关的各种文章、以及下载和课程。

525

2023.08.10

Python 多线程与异步编程实战
Python 多线程与异步编程实战

本专题系统讲解 Python 多线程与异步编程的核心概念与实战技巧,包括 threading 模块基础、线程同步机制、GIL 原理、asyncio 异步任务管理、协程与事件循环、任务调度与异常处理。通过实战示例,帮助学习者掌握 如何构建高性能、多任务并发的 Python 应用。

187

2025.12.24

java多线程相关教程合集
java多线程相关教程合集

本专题整合了java多线程相关教程,阅读专题下面的文章了解更多详细内容。

19

2026.01.21

C++多线程相关合集
C++多线程相关合集

本专题整合了C++多线程相关教程,阅读专题下面的的文章了解更多详细内容。

17

2026.01.21

windows查看端口占用情况
windows查看端口占用情况

Windows端口可以认为是计算机与外界通讯交流的出入口。逻辑意义上的端口一般是指TCP/IP协议中的端口,端口号的范围从0到65535,比如用于浏览网页服务的80端口,用于FTP服务的21端口等等。怎么查看windows端口占用情况呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

810

2023.07.26

查看端口占用情况windows
查看端口占用情况windows

端口占用是指与端口关联的软件占用端口而使得其他应用程序无法使用这些端口,端口占用问题是计算机系统编程领域的一个常见问题,端口占用的根本原因可能是操作系统的一些错误,服务器也可能会出现端口占用问题。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

1129

2023.07.27

windows照片无法显示
windows照片无法显示

当我们尝试打开一张图片时,可能会出现一个错误提示,提示说"Windows照片查看器无法显示此图片,因为计算机上的可用内存不足",本专题为大家提供windows照片无法显示相关的文章,帮助大家解决该问题。

804

2023.08.01

windows查看端口被占用的情况
windows查看端口被占用的情况

windows查看端口被占用的情况的方法:1、使用Windows自带的资源监视器;2、使用命令提示符查看端口信息;3、使用任务管理器查看占用端口的进程。本专题为大家提供windows查看端口被占用的情况的相关的文章、下载、课程内容,供大家免费下载体验。

454

2023.08.02

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

33

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号