如何正确使用 Python requests 下载受反爬保护的 PDF 文件

霞舞

发布时间：2026-02-08 21:08:24

340人浏览过

来源于php中文网

原创

如何正确使用 Python requests 下载受反爬保护的 PDF 文件

本文详解如何通过设置关键请求头（user-agent 和 accept-language）并配合流式下载，成功获取 adgm 等严格防护网站上的 pdf 文件，避免文件损坏或 403/406 错误。

在使用 requests 库下载 PDF 文件时，看似简单的 GET 请求常因目标网站的反爬机制而失败——表现为文件可保存但无法打开（提示“已损坏”或“不是有效的 PDF”）。根本原因往往不是网络问题，而是服务器根据请求头（如 Accept-Language、User-Agent）进行内容协商或访问控制。以阿布扎比全球市场（ADGM）官网为例，其 PDF 资源明确要求同时提供 User-Agent 和 Accept-Language 头，缺一不可；仅设 User-Agent 仍会返回空响应或 HTML 错误页，导致二进制内容错乱。

以下为推荐的健壮下载方案，采用流式读取（stream=True）、分块写入和异常校验，确保大文件稳定下载且完整性可控：

import requests

PDF_FILENAME = "alpha-development-middle-east-ltd-penalty-notice-redacted.pdf"
BASE_URL = "https://www.adgm.com/documents/operating-in-adgm/ongoing-obligation/enforcement/"

# 构建完整 URL（参数分离，提升可读性与可维护性）
url = f"{BASE_URL}{PDF_FILENAME}"
params = {
    "la": "en",
    "hash": "5EA2DA7D1492D105375580EEF2FB088F"
}

headers = {
    "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 14_3_1) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.2 Safari/605.1.15",
    "Accept-Language": "en-GB,en;q=0.9,en-US;q=0.8,pt;q=0.7"
}

chunk_size = 32 * 1024  # 32KB 每次读取，平衡内存与 I/O 效率

with requests.get(url, headers=headers, params=params, stream=True) as response:
    response.raise_for_status()  # 自动抛出 HTTPError（如 403、404、500）

    with open(PDF_FILENAME, "wb") as f:
        for chunk in response.iter_content(chunk_size=chunk_size):
            if chunk:  # 过滤空 chunk（如 keep-alive 短连接）
                f.write(chunk)

关键要点说明：
✅ 必须包含 Accept-Language：ADGM 等政府/监管类网站常依据该头判断用户区域与语言偏好，缺失将触发服务端拒绝响应（返回 406 Not Acceptable 或伪造 HTML）。
✅ stream=True + iter_content() 是安全实践：避免将整个 PDF 加载进内存，尤其对百 MB 级文件至关重要；同时支持断点续传逻辑扩展。
✅ response.raise_for_status() 不可省略：它能立即捕获 HTTP 错误状态码，防止静默写入无效响应体（例如返回的 403 页面 HTML 被当成 PDF 写入，造成“损坏”假象）。
⚠️ 注意 User-Agent 的真实性：避免使用过于陈旧或明显爬虫特征的 UA（如 python-requests/2.x），建议模拟主流浏览器最新版本，并保持 UA 与 Accept-Language 语义一致（如 en-GB 对应英国区 Safari）。

若仍失败，可进一步检查：

koly.club

一站式社群管理工具

下载

使用浏览器开发者工具 → Network 面板，复制真实下载请求的完整 Headers（含 Cookie、Referer 等）；
添加 timeout=(3.05, 27) 防止卡死（连接超时 3.05s，读取超时 27s）；
对于需登录或 Token 的资源，优先考虑 requests.Session() 维持会话状态。

此方法已在 ADGM、FCA、MAS 等多个监管机构官网验证有效，兼顾兼容性与鲁棒性，是生产环境 PDF 下载的推荐范式。

立即学习“Python免费学习笔记（深入）”；

如何用Python结合NLP与正则高效提取意大利个人身份信息（姓名、税号）

如何正确使用 Python requests 下载受保护的 PDF 文件

python截取一段字符串_使用切片语法实现灵活的子串提取示例

如何使用 Python NLP 库智能截断商品标题至 40 字符以内

高效合并两个超长有序列表（仅少数差异项）

相关标签:

python html go cookie 浏览器 app 工具 session safari mac ai pdf safari Cookie Session Token http

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何将一个字典列表按需复制扩展为多个相同项的列表下一篇：暂无

作者最新文章

Chart.js 散点图中实现数据点颜色按 Y 值动态着色

2026-02-06 12:55

业界分析任天堂新发布会传达从复古到3A游戏全揽于旗下野心

2026-02-06 12:57

国产操作系统的崛起：盘点2024年值得关注的国产操作系统

2026-02-06 12:57

如何通过对比新旧数组识别被拖拽移动的元素

2026-02-06 13:16

《最终幻想7》重制版导演：今年将更积极公布游戏开发情报

2026-02-06 14:31

以阵破局，妙算神机！《枪火重生》第七赛季“妙阵天工”正式上线，本体迎来史低特惠！

2026-02-06 14:33

又吃上大份了育碧官方《荣耀战魂》"苦命鸳鸯"整活视频

2026-02-06 14:41

国产化麒麟信安操作系统激活方法

2026-02-06 14:51

恐怖打字游戏《Dyping Escape：生死敲定》2月6日Steam发布免费体验

2026-02-06 15:06

《噬血代码2》登顶Fami通销量榜！超越《马里奥赛车：世界》

2026-02-06 15:25

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

Cookie 是一种在用户计算机上存储小型文本文件的技术，用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时，网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器，浏览器会将该 Cookie 存储在用户的计算机上。之后，当用户再次访问该网站时，浏览器会向服务器发送 Cookie，服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6442

2023.06.30

document.cookie获取不到怎么解决

document.cookie获取不到的解决办法：1、浏览器的隐私设置；2、Same-origin policy；3、HTTPOnly Cookie；4、JavaScript代码错误；5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

355

2023.11.23

阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验，因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

418

2024.02.23

cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容，阅读专题下面的文章了解更详细的内容。

2025.08.19

session失效的原因

session失效的原因有会话超时、会话数量限制、会话完整性检查、服务器重启、浏览器或设备问题等等。详细介绍：1、会话超时：服务器为Session设置了一个默认的超时时间，当用户在一段时间内没有与服务器交互时，Session将自动失效；2、会话数量限制：服务器为每个用户的Session数量设置了一个限制，当用户创建的Session数量超过这个限制时，最新的会覆盖最早的等等。

322

2023.10.17

session失效解决方法

session失效通常是由于 session 的生存时间过期或者服务器关闭导致的。其解决办法：1、延长session的生存时间；2、使用持久化存储；3、使用cookie；4、异步更新session；5、使用会话管理中间件。

767

2023.10.18

cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容，阅读专题下面的文章了解更详细的内容。

2025.08.19

登录token无效

登录token无效解决方法：1、检查token的有效期限，如果token已经过期，需要重新获取一个新的token；2、检查token的签名，如果签名不正确，需要重新获取一个新的token；3、检查密钥的正确性，如果密钥不正确，需要重新获取一个新的token；4、使用HTTPS协议传输token，建议使用HTTPS协议进行传输；5、使用双因素认证，双因素认证可以提高账户的安全性。

6327

2023.09.14