requests.get() 不加 stream=true 会将整个响应体加载到内存,导致大文件下载时内存激增甚至 oom;必须显式设置 stream=true 并用 iter_content(8192) 或 shutil.copyfileobj() 安全分块读取。

requests.get() 不加 stream=True 会吃光内存
直接用 requests.get("https://big-file.com/data.zip") 下载大文件,响应体默认全部加载进内存,哪怕文件 500MB,Python 进程 RSS 就可能瞬间涨到 600MB+,还容易触发 OOM。这不是 bug,是 requests 的默认行为——它得帮你把 response.content 准备好。
必须显式打开流模式:requests.get(url, stream=True)。这之后 response.content 不再可用(会触发读取整个响应的副作用),你得靠 response.iter_content() 或手动调 response.raw 分块读。
- 不加
stream=True:适合小响应(10MB,就别碰 - 加了之后:必须自己管理读取循环,不能依赖
.json()或.text(它们会强制读完) - 注意:HTTP 重定向(302)默认会被 requests 自动跟随,且跟随后的响应也受
stream=True控制——这点常被忽略,导致你以为开了流,其实重定向后又全载入了
iter_content(chunk_size=8192) 是最稳的分块读法
response.iter_content() 是 requests 官方推荐的流式读取方式,比直接读 response.raw 更安全:它自动处理压缩(如 gzip)、解码、连接中断重试逻辑(在 chunk 级别)。
关键在 chunk_size 参数——不是越大越好,也不是越小越省。实测 8KB(8192)是多数场景下的甜点值:
立即学习“Python免费学习笔记(深入)”;
-
chunk_size=1:系统调用太频繁,CPU 负担翻倍,吞吐反而下降 -
chunk_size=1024*1024(1MB):单次分配大 buffer,GC 压力大;网络抖动时,一整块卡住,延迟感知明显 -
chunk_size=8192:平衡内存占用、系统调用次数和缓存友好性;SSD/HDD 写入也更顺 - 如果目标是边下边解压(如 tar.gz),建议保持
chunk_size为 8192,并用zlib.decompressobj()流式解压,不要攒满再解
用 shutil.copyfileobj() 替代手动 write() 更可靠
很多人写流式下载,习惯这么干:
95Shop可以免费下载使用,是一款仿醉品商城网店系统,内置SEO优化,具有模块丰富、管理简洁直观,操作易用等特点,系统功能完整,运行速度较快,采用ASP.NET(C#)技术开发,配合SQL Serve2000数据库存储数据,运行环境为微软ASP.NET 2.0。95Shop官方网站定期开发新功能和维护升级。可以放心使用! 安装运行方法 1、下载软件压缩包; 2、将下载的软件压缩包解压缩,得到we
for chunk in response.iter_content(8192):
f.write(chunk)
看起来没问题,但漏掉了两个现实问题:磁盘满、权限拒绝。这些错误在 f.write() 时才抛,而此时 chunk 已经从 socket 读出、丢在内存里了——你没法优雅回退。
shutil.copyfileobj() 内部做了缓冲区复用,且对 IOError 更敏感,更重要的是:它支持传入 length 参数控制总拷贝上限,能防磁盘爆满。
- 正确写法:
shutil.copyfileobj(response.raw, f, length=8192) - 必须用
response.raw(不是response),否则压缩中间层可能干扰 - 确保
f是以wb模式打开的,且没开 buffering(buffering=0在二进制模式下无效,别试) - 如果要校验 hash,别在写入时算——先写临时文件,写完再
hashlib.blake2b(f.read()),避免 IO 和 CPU 绑死
超时和重试必须分开配,别只设 timeout=(3, 30)
timeout=(3, 30) 只控制单次请求的 connect + read 超时,对流式下载几乎没用:read 超时是从第一个字节开始计,但大文件传输中,可能前 10 秒有数据,后面卡住 2 分钟——这时 timeout 不会中断。
真正需要的是「空闲超时」+ 「重试策略」:
- 用
requests.adapters.HTTPAdapter(pool_connections=10, pool_maxsize=10, max_retries=3)配连接池和重试 - 手动监控读取间隔:记录上一次
iter_content()返回非空 chunk 的时间,超过 60 秒无新数据,就主动response.close()并重试 - 别依赖
requests.packages.urllib3.util.retry.Retry的status_forcelist来重试 503——流式响应一旦发了 header,503 就不会来了,得靠空闲检测
流式下载的麻烦不在代码长短,而在边界是否被想全:网络断了怎么续、磁盘满了怎么停、服务端悄悄关连接你怎么感知。这些没写进文档,但每次上线都会撞上。









