使用 Selenium 和 Python 抓取点击按钮后网页的 HTML 代码

霞舞

发布时间：2025-10-30 10:05:01

418人浏览过

来源于php中文网

原创

使用 selenium 和 python 抓取点击按钮后网页的 html 代码

本文旨在指导初学者使用 Selenium 和 Python 抓取网页中点击按钮后更新的 HTML 代码。通过示例代码演示如何定位按钮并模拟点击，以及如何获取每次点击后的完整页面源代码。我们将重点介绍如何通过文本定位元素，并处理页面跳转的情况，确保能够完整抓取每次点击后的页面数据。

使用 Selenium 抓取动态网页 HTML 代码

在Web数据抓取中，经常会遇到需要与网页进行交互的情况，例如点击按钮后页面内容才会更新。Selenium 结合 Python 提供了一种强大的解决方案，可以模拟用户行为，抓取动态生成的 HTML 代码。

定位和点击按钮

首先，我们需要使用 Selenium 定位到需要点击的按钮。推荐使用按钮上的文本内容进行定位，因为文本通常比 XPath 更稳定。

以下代码演示了如何使用按钮文本定位元素并进行点击：

立即学习“Python免费学习笔记（深入）”；

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = Options()
options.headless = True  # 设置为无头模式，不在图形界面中显示浏览器
# options.binary_location = r'/bin/firefox'  # 如果 Firefox 的二进制文件不在默认路径，需要指定

driver = webdriver.Firefox(options=options)
driver.set_window_size(1920, 1080) #设置窗口大小，方便调试

driver.get('https://blabla.bla')  # 替换为你的目标网页

all_htmls = []

# 定义一个函数，用于点击按钮并获取 HTML 代码
def click_button_and_get_html(button_text):
    try:
        # 使用 WebDriverWait 确保元素加载完成
        button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.LINK_TEXT, button_text))
        )
        button.click()
        # 获取点击后的 HTML 代码
        html_code = driver.page_source
        all_htmls.append(html_code)
        print(f"Successfully clicked button '{button_text}' and captured HTML.")
    except Exception as e:
        print(f"Error clicking button '{button_text}': {e}")

# 依次点击按钮并获取 HTML 代码
click_button_and_get_html("Banana")
click_button_and_get_html("Apple")
click_button_and_get_html("Orange")

# 打印所有获取到的 HTML 代码数量
print(f"Total HTMLs captured: {len(all_htmls)}")

driver.quit() #关闭浏览器

代码解释：

导入必要的库： 导入 selenium 相关模块，包括 webdriver、By（用于元素定位）、Options（用于配置浏览器选项）和 WebDriverWait (显式等待)
配置浏览器选项： 设置 headless 为 True 可以在后台运行浏览器，无需显示界面。
创建 WebDriver 实例： 创建 Firefox 的 WebDriver 实例，并传入配置选项。
打开网页： 使用 driver.get() 方法打开目标网页。
定义 click_button_and_get_html 函数：
- 使用 WebDriverWait 和 EC.element_to_be_clickable 确保按钮可以点击。
- 使用 By.LINK_TEXT 通过链接文本定位按钮。
- 点击按钮后，使用 driver.page_source 获取当前页面的 HTML 代码。
- 将获取到的 HTML 代码添加到 all_htmls 列表中。
依次点击按钮： 调用 click_button_and_get_html 函数，依次点击 "Banana"、"Apple" 和 "Orange" 按钮，并获取每次点击后的 HTML 代码。
打印结果： 打印 all_htmls 列表中 HTML 代码的数量。
关闭浏览器： 使用 driver.quit() 方法关闭浏览器，释放资源。

注意事项：

Magic AI Avatars

神奇的AI头像，获得200多个由AI制作的自定义头像。

下载

显式等待: 使用 WebDriverWait 和 expected_conditions 可以确保在元素加载完成后再进行操作，避免因元素未加载完成而导致的错误。 EC.element_to_be_clickable 用于等待元素可点击。
错误处理: 在 click_button_and_get_html 函数中使用 try...except 块捕获异常，可以防止程序因某个按钮点击失败而崩溃。
浏览器驱动: 确保已安装与你的浏览器版本匹配的 WebDriver，并将其添加到系统环境变量 PATH 中，或者在代码中指定 WebDriver 的路径。
页面跳转: 如果点击按钮会导致页面跳转到不同的 URL，需要在每次点击后使用 driver.back() 返回到原始页面，才能继续点击其他按钮。
元素定位: 如果按钮文本不唯一，可以考虑使用其他定位方式，例如 By.XPATH、By.CSS_SELECTOR 等。

处理页面跳转

如果点击按钮后页面会跳转到新的 URL，需要在获取 HTML 代码后返回到原始页面，才能继续点击其他按钮。

以下代码演示了如何处理页面跳转的情况：

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.firefox.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC

options = Options()
options.headless = True

driver = webdriver.Firefox(options=options)
driver.set_window_size(1920, 1080)

driver.get('https://blabla.bla')

all_htmls = []

def click_button_and_get_html(button_text):
    try:
        button = WebDriverWait(driver, 10).until(
            EC.element_to_be_clickable((By.LINK_TEXT, button_text))
        )
        button.click()
        # 获取点击后的 HTML 代码
        html_code = driver.page_source
        all_htmls.append(html_code)
        print(f"Successfully clicked button '{button_text}' and captured HTML.")

        # 返回到原始页面
        driver.back()

        # 重新加载原始页面，避免 stale element reference exception
        driver.get('https://blabla.bla')

    except Exception as e:
        print(f"Error clicking button '{button_text}': {e}")

click_button_and_get_html("Banana")
click_button_and_get_html("Apple")
click_button_and_get_html("Orange")

print(f"Total HTMLs captured: {len(all_htmls)}")

driver.quit()

代码解释：

在 click_button_and_get_html 函数中，点击按钮后，使用 driver.back() 方法返回到原始页面。
使用driver.get('https://blabla.bla')重新加载原始页面，避免stale element reference exception。

总结：

本文介绍了如何使用 Selenium 和 Python 抓取点击按钮后更新的 HTML 代码。重点介绍了如何通过文本定位元素、使用显式等待确保元素加载完成，以及如何处理页面跳转的情况。通过这些技巧，可以更有效地抓取动态网页的数据。记住要根据实际情况调整代码，例如修改元素定位方式、调整等待时间等。

HTML引文怎么添加_HTMLblockquote标签引用格式教程【教程】

HTML内联样式如何设置_HTML内联样式使用方法【方法】

HTML图片怎么响应式_HTMLimg元素自适应高频技巧【汇总】

HTML段落格式不对怎么办_HTML段落格式问题解答【解答】

如何在页面加载初期动态注入 CSS 并避免 FOUC（闪屏）

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2910

2024.08.16

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

Kotlin Android模块化架构与组件化开发实践

本专题围绕 Kotlin 在 Android 应用开发中的架构实践展开，重点讲解模块化设计与组件化开发的实现思路。内容包括项目模块拆分策略、公共组件封装、依赖管理优化、路由通信机制以及大型项目的工程化管理方法。通过真实项目案例分析，帮助开发者构建结构清晰、易扩展且维护成本低的 Android 应用架构体系，提升团队协作效率与项目迭代速度。

2026.03.09

JavaScript浏览器渲染机制与前端性能优化实践

本专题围绕 JavaScript 在浏览器中的执行与渲染机制展开，系统讲解 DOM 构建、CSSOM 解析、重排与重绘原理，以及关键渲染路径优化方法。内容涵盖事件循环机制、异步任务调度、资源加载优化、代码拆分与懒加载等性能优化策略。通过真实前端项目案例，帮助开发者理解浏览器底层工作原理，并掌握提升网页加载速度与交互体验的实用技巧。

2026.03.06

Rust内存安全机制与所有权模型深度实践

本专题围绕 Rust 语言核心特性展开，深入讲解所有权机制、借用规则、生命周期管理以及智能指针等关键概念。通过系统级开发案例，分析内存安全保障原理与零成本抽象优势，并结合并发场景讲解 Send 与 Sync 特性实现机制。帮助开发者真正理解 Rust 的设计哲学，掌握在高性能与安全性并重场景中的工程实践能力。

223

2026.03.05

PHP高性能API设计与Laravel服务架构实践

本专题围绕 PHP 在现代 Web 后端开发中的高性能实践展开，重点讲解基于 Laravel 框架构建可扩展 API 服务的核心方法。内容涵盖路由与中间件机制、服务容器与依赖注入、接口版本管理、缓存策略设计以及队列异步处理方案。同时结合高并发场景，深入分析性能瓶颈定位与优化思路，帮助开发者构建稳定、高效、易维护的 PHP 后端服务体系。

458

2026.03.04