流式下载内存暴涨需用stream=True+分块读取+及时写入:设stream=True避免全响应体进内存;用iter_content(chunk_size)边读边写二进制文件;校验状态码、重定向及Content-Length;设timeout并捕获异常。

流式下载时内存暴涨,通常是因为没控制好数据读取和写入节奏,把整个响应体缓存进内存再处理。关键在于用 stream=True + 分块读取 + 及时写入磁盘,避免累积。
启用 stream=True 是前提
requests 默认会把整个响应体加载进内存。必须显式设置 stream=True,让响应对象保持连接打开、按需读取:
-
red">错误写法:
resp = requests.get(url)—— 响应体全进内存 -
正确写法:
resp = requests.get(url, stream=True)—— 返回可迭代的响应流
用 iter_content() 分块读取并立即写入文件
不要用 resp.content 或 resp.text,而要用 iter_content(chunk_size) 按固定大小(如 8192 字节)拉取数据,并边读边写:
- 推荐
chunk_size=8192(或 65536),太小增加 I/O 次数,太大仍可能占内存 - 用二进制模式打开文件(
open(..., 'wb')),直接写入 bytes - 务必在
with语句中操作,确保连接和文件句柄及时释放
注意重定向和响应头校验
有些服务重定向后不自动带 stream=True,需手动检查;同时建议验证 resp.status_code == 200 和 resp.headers.get('content-length') 是否合理,防止空响应或异常流导致逻辑卡住:
立即学习“Python免费学习笔记(深入)”;
- 开启
allow_redirects=True(默认),但检查最终响应是否仍是流式 - 若需断点续传,可加
headers={'Range': 'bytes=xxx-'},配合resp.headers['Content-Range']解析
超时与异常要兜底
流式请求容易因网络波动中断,必须设 timeout 并捕获常见异常:
-
timeout=(3, 30):3 秒连通,30 秒读取每块超时 - 捕获
requests.exceptions.RequestException、OSError、IOError - 失败时清理临时文件,避免残留损坏文件










