0

0

如何绕过 Zoopla 的 Cloudflare 防护进行合法网页抓取

碧海醫心

碧海醫心

发布时间:2026-01-19 09:11:39

|

818人浏览过

|

来源于php中文网

原创

如何绕过 Zoopla 的 Cloudflare 防护进行合法网页抓取

zoopla 使用 cloudflare 严格反爬,直接用 requests 易触发 403 错误;本文详解通过 selenium 模拟真实浏览器行为、隐藏自动化特征,并配合合理延时,实现稳定、低风险的数据获取。

Zoopla(zoopla.co.uk)作为英国主流房产平台,对爬虫防护极为严格——其前端默认启用 Cloudflare 的「I'm Under Attack」模式,会主动拦截非常规请求头、缺失浏览器指纹或无交互行为的 HTTP 请求。你提供的 requests 代码虽设置了 User-Agent,但缺少 Cookie 上下文、JavaScript 执行能力及关键浏览器环境信号(如 navigator.webdriver),因此被判定为自动化工具,返回 403 Forbidden。

✅ 推荐方案:使用 Selenium + ChromeOptions 深度伪装
以下为可直接运行的优化示例(需提前安装 selenium 并配置 ChromeDriver):

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 配置无痕模式 + 反检测选项
options = Options()
options.add_argument("--headless")  # 可选:无界面运行(生产环境推荐)
options.add_argument("--no-sandbox")
options.add_argument("--disable-dev-shm-usage")
options.add_argument("--disable-blink-features=AutomationControlled")
options.add_experimental_option("excludeSwitches", ["enable-automation"])
options.add_experimental_option('useAutomationExtension', False)

driver = webdriver.Chrome(options=options)

# 关键:覆盖 navigator.webdriver 属性(Cloudflare 核心检测点)
driver.execute_cdp_cmd('Page.addScriptToEvaluateOnNewDocument', {
    'source': '''
        Object.defineProperty(navigator, 'webdriver', {
            get: () => undefined
        });
        window.chrome = { runtime: {} };
        Object.defineProperty(navigator, 'plugins', {
            get: () => [1, 2, 3, 4, 5],
        });
    '''
})

try:
    url = "https://www.zoopla.co.uk/to-rent/property/west-midlands/handsworth/sandwell-road/b21-8nl/?q=B21%208NL&radius=1"
    driver.get(url)

    # 等待主内容区域加载(避免过早解析空 DOM)
    WebDriverWait(driver, 15).until(
        EC.presence_of_element_located((By.CSS_SELECTOR, "div[data-testid='search-results']"))
    )

    # 获取渲染后 HTML(含 JS 动态加载内容)
    html = driver.page_source
    print("✅ 页面加载成功,状态正常")

    # 后续可用 BeautifulSoup 解析
    # from bs4 import BeautifulSoup
    # soup = BeautifulSoup(html, 'html.parser')
    # listings = soup.select("div[data-testid='search-result']")

finally:
    driver.quit()

⚠️ 重要注意事项:

Q.AI视频生成工具
Q.AI视频生成工具

支持一分钟生成专业级短视频,多种生成方式,AI视频脚本,在线云编辑,画面自由替换,热门配音媲美真人音色,更多强大功能尽在QAI

下载
  • 遵守 robots.txt 与服务条款:Zoopla 的 robots.txt(https://www.php.cn/link/b0dfd1bbadca4092f9d14d7a74085df0)明确禁止抓取大部分房源数据,商业用途需获书面授权;本教程仅限学习、研究及个人非分发用途。
  • 频率控制是关键:即使伪装完善,高频请求仍可能触发 IP 封禁。建议每次请求间隔 ≥3–5 秒,必要时轮换代理 IP(不推荐免费代理)。
  • 动态内容优先:Zoopla 大量依赖 React 渲染,requests 无法执行 JS,必须依赖 Selenium 或 Playwright 等驱动浏览器。
  • 替代思路参考:若仅需基础地址/邮编校验,可调用 Zoopla 官方 API(需注册开发者账号)或使用 UK 官方地理数据库(如 OS Places API)。

总结:403 错误本质是身份未被信任,而非技术不可行。通过精准模拟真实用户环境、规避自动化特征、尊重网站规则,才能在合规前提下完成可靠抓取。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6498

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

368

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

444

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

97

2025.08.19

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

554

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

738

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

6065

2023.08.17

JavaScript浏览器渲染机制与前端性能优化实践
JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开,系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理,以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例,帮助开发者理解浏览器底层工作原理,并掌握提升网页加载速度与交互体验的实用技巧。

23

2026.03.06

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.5万人学习

CSS教程
CSS教程

共754课时 | 40.8万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号