0

0

如何使用 Selenium 提取 JavaScript 渲染的搜索结果链接

聖光之護

聖光之護

发布时间:2026-01-28 15:18:24

|

182人浏览过

|

来源于php中文网

原创

如何使用 Selenium 提取 JavaScript 渲染的搜索结果链接

本文详解为何 requests + beautifulsoup 无法获取 dtcc 网站动态加载的搜索结果链接,并提供基于 selenium 的可靠解决方案,包括无头浏览器配置、元素定位、链接提取及与 beautifulsoup 协同使用的进阶技巧。

DTCC 官网(https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e)的搜索结果页面采用 JavaScript 动态渲染:搜索结果并非在初始 HTML 中静态存在,而是由前端脚本(如 React 或 AJAX)异步加载并插入 DOM。因此,仅用 requests 获取原始 HTML 响应后交由 BeautifulSoup 解析,根本无法捕获这些后期生成的链接——这正是你代码中 soup.find_all(attrs={'href': re.compile("http")}) 返回空集或无关链接的根本原因。

要正确提取这类链接,必须使用能执行 JavaScript 的浏览器自动化工具。Selenium 是最常用且稳定的选择。以下是一个完整、可运行的解决方案:

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

search_url = "https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e?q=aggregated%20transaction%20data"

# 配置无头 Chrome(不显示浏览器窗口)
opts = Options()
opts.add_argument('--headless')
opts.add_argument('--no-sandbox')
opts.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=opts)
try:
    driver.get(search_url)
    # 等待搜索结果容器加载完成(更健壮的做法是使用 WebDriverWait)
    time.sleep(5)

    # 定位搜索结果区域,再查找其中所有  标签
    results_container = driver.find_element(By.CLASS_NAME, 'search-results')
    links = results_container.find_elements(By.TAG_NAME, 'a')

    for link in links:
        href = link.get_attribute('href')
        if href and not href.startswith('#'):  # 过滤锚点链接
            print(href)
finally:
    driver.quit()  # 确保浏览器进程被释放

⚠️ 注意事项:

RecoveryFox AI
RecoveryFox AI

AI驱动的数据恢复、文件恢复工具

下载
  • 显式等待优于 time.sleep():生产环境中建议改用 WebDriverWait 配合 expected_conditions(例如 presence_of_element_located((By.CLASS_NAME, 'search-results'))),避免因网络波动导致等待不足或过度。
  • 链接可能为相对路径:DTCC 的搜索结果链接多为 /documents/... 等相对 URL,需手动拼接基础域名:from urllib.parse import urljoin; full_url = urljoin('https://www.dtcc.com', href)。
  • 与 BeautifulSoup 协同使用(推荐进阶方案):若后续需复杂 HTML 解析(如提取标题、摘要、日期),可在 Selenium 加载完成后获取渲染后的源码,再交由 BeautifulSoup 处理:
html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
for a in soup.select('.search-results a[href]'):
    print(urljoin('https://www.dtcc.com', a['href']))

总结:面对现代 SPA(单页应用)或 JS 渲染型搜索页,requests + BeautifulSoup 是“静态抓取”的黄金组合,但遇到动态内容时必须升级为“浏览器级抓取”。Selenium 不仅解决了可见性问题,还提供了精确的 DOM 控制能力——掌握其基本用法,是构建鲁棒网络爬虫的关键一步。

立即学习Java免费学习笔记(深入)”;

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
ajax教程
ajax教程

php中文网为大家带来ajax教程合集,Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换,Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下,对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容,供大家免费下载使用。

159

2023.06.14

ajax中文乱码解决方法
ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容,供大家免费下载体验。

160

2023.08.31

ajax传递中文乱码怎么办
ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法:1、设置统一的编码方式;2、服务器端编码;3、客户端解码;4、设置HTTP响应头;5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

117

2023.11.15

ajax网站有哪些
ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

234

2024.09.24

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

514

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

244

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

298

2023.08.03

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

158

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 4.3万人学习

国外Web开发全栈课程全集
国外Web开发全栈课程全集

共12课时 | 1.0万人学习

React核心原理新老生命周期精讲
React核心原理新老生命周期精讲

共12课时 | 1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号