Python 分片下载 + 合并的实现

舞夢輝影

发布时间：2026-02-21 14:26:53

528人浏览过

来源于php中文网

原创

分片下载需动态计算range：起始为i×chunk_size，结束为min((i+1)×chunk_size−1, content-length−1)，用bytes={start}-{end}；多线程须各写独立临时文件，合并时用shutil.copyfileobj流式追加写入。

python 分片下载 + 合并的实现

requests 分片下载时 Range 头怎么设才不越界

分片下载失败，十有八九是 Range 值算错了——特别是最后一个分片，容易设成超出文件总大小，触发 416 Range Not Satisfiable 错误。

关键不是“按固定大小切”，而是根据服务器返回的 Content-Length 动态算结尾字节位置：

先发 HEAD 请求拿到 Content-Length（比如 1234567）
设分片大小为 chunk_size = 1024 * 1024（1MB），则第 i 片起始为 i * chunk_size
结束位置取 min((i + 1) * chunk_size - 1, content_length - 1)，注意减 1（Range 是闭区间）
请求头必须带 headers={'Range': f'bytes={start}-{end}'}，不能漏 bytes=

多线程写入同一个文件会损坏数据吗

会。直接用多个线程对同一文件句柄调用 write()，不加锁、不预分配，结果就是字节错乱、内容覆盖——哪怕你算好了每个线程该写哪段。

安全做法只有一条：每个线程写自己的临时文件，合并阶段再顺序拼接。

立即学习“Python免费学习笔记（深入）”；

分片下载时，给每片生成唯一临时名，如 f"part_{i:04d}.tmp"
下载完全部分片后，按序读取这些 .tmp 文件，用 open(..., 'ab') 追加写入目标文件
别用内存拼接大文件（比如 b''.join(chunks)），内存爆掉比下载慢更致命

合并时用 shutil.copyfileobj 还是 open().read()

用 shutil.copyfileobj。它底层用小缓冲块（默认 64KB）流式读写，内存占用稳定；而 open().read() 会把整个分片一次性加载进内存，100MB 分片就占 100MB 内存，N 片并发下载时极易 OOM。

动易网上商城管理系统 2006 Sp6 Build 1120 普及版

将产品展示、购物管理、资金管理等功能相结合，并提供了简易的操作、丰富的功能和完善的权限管理，为用户提供了一个低成本、高效率的网上商城建设方案包含PowerEasy CMS普及版，主要功能模块：文章频道、下载频道、图片频道、留言频道、采集管理、商城模块、商城日常操作模块500个订单限制（超出限制后只能查看和删除，不能进行其他处理）无订单处理权限分配功能（只有超级管理员才能处理订单）

下载

实操示例（合并单个分片）：

with open("part_0001.tmp", "rb") as fsrc:
    with open("output.zip", "ab") as fdst:
        shutil.copyfileobj(fsrc, fdst)

shutil.copyfileobj 默认缓冲区够用，不用改 length 参数
确保目标文件以 "ab" 模式打开（追加二进制），不是 "wb"
如果分片数多，合并循环里别重复 open("output.zip", "ab")，应该在外层打开一次，传进去

断点续传怎么判断哪些分片已下载完成

不能靠文件存在就认为下载完成——可能写了一半就中断了。得校验实际字节数是否匹配预期。

每个分片下载前，先检查对应临时文件：

若文件不存在 → 正常下载
若存在但 os.path.getsize(path) != expected_size → 删除重下（expected_size = end - start + 1）
若大小匹配 → 跳过，直接进入合并流程
别用 os.path.exists() 单独判断，那是坑

临时文件名建议包含起始偏移和长度（如 part_0_1048575.tmp），方便调试时一眼看出范围。

最麻烦的其实是网络波动导致部分分片反复失败，这时候重试逻辑要配超时和指数退避，而不是死循环重试。

Python 幂等性在任务系统中的实现

Python Argo Rollouts 的蓝绿部署

Python 线程锁 RLock 与 Lock 的区别

Python 启动阶段耗时分析的方法

Python 命令行工具的整体设计思路

相关标签:

python 循环 Length 线程多线程并发

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 使用 Cryptography 库解密文件时的常见错误与正确实践下一篇：暂无

作者最新文章

Linux kubeadm join 的 token / certificate-key 有效期与续期策略

2026-02-19 12:17

GitHub 上的文件如何下载？单个文件与整包下载方法

2026-02-19 12:30

edge浏览器同步密码 Edge密码管理器与加密同步机制解析

2026-02-19 12:43

Python GIL 对多线程性能的影响

2026-02-19 12:52

Python 使用 slots 控制对象内存占用

2026-02-19 13:32

Python Parca 的持续性能剖析

2026-02-19 13:49

GitHub 怎么稳定打开？GitHub 加速访问与网络设置教程

2026-02-19 13:54

Python asyncio.wait 的返回结果分析

2026-02-19 14:16

Linux Harbor 的镜像仓库安全扫描与 RBAC 配置模板

2026-02-19 14:21

拼多多直播怎么上秒拍链接？拼多多秒拍怎么抢

2026-02-19 14:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

AI 图片处理图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

length函数用法

length函数用于返回指定字符串的字符数或字节数。可以用于计算字符串的长度，以便在查询和处理字符串数据时进行操作和判断。需要注意的是length函数计算的是字符串的字符数，而不是字节数。对于多字节字符集，一个字符可能由多个字节组成。因此，length函数在计算字符串长度时会将多字节字符作为一个字符来计算。更多关于length函数的用法，大家可以阅读本专题下面的文章。

951

2023.09.19