如何使用 Selenium 提取 JavaScript 渲染的搜索结果链接

聖光之護

发布时间：2026-01-28 15:18:24

182人浏览过

来源于php中文网

原创

如何使用 Selenium 提取 JavaScript 渲染的搜索结果链接

本文详解为何 requests + beautifulsoup 无法获取 dtcc 网站动态加载的搜索结果链接，并提供基于 selenium 的可靠解决方案，包括无头浏览器配置、元素定位、链接提取及与 beautifulsoup 协同使用的进阶技巧。

DTCC 官网（https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e）的搜索结果页面采用 JavaScript 动态渲染：搜索结果并非在初始 HTML 中静态存在，而是由前端脚本（如 React 或 AJAX）异步加载并插入 DOM。因此，仅用 requests 获取原始 HTML 响应后交由 BeautifulSoup 解析，根本无法捕获这些后期生成的链接——这正是你代码中 soup.find_all(attrs={'href': re.compile("http")}) 返回空集或无关链接的根本原因。

要正确提取这类链接，必须使用能执行 JavaScript 的浏览器自动化工具。Selenium 是最常用且稳定的选择。以下是一个完整、可运行的解决方案：

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

search_url = "https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e?q=aggregated%20transaction%20data"

# 配置无头 Chrome（不显示浏览器窗口）
opts = Options()
opts.add_argument('--headless')
opts.add_argument('--no-sandbox')
opts.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=opts)
try:
    driver.get(search_url)
    # 等待搜索结果容器加载完成（更健壮的做法是使用 WebDriverWait）
    time.sleep(5)

    # 定位搜索结果区域，再查找其中所有  标签
    results_container = driver.find_element(By.CLASS_NAME, 'search-results')
    links = results_container.find_elements(By.TAG_NAME, 'a')

    for link in links:
        href = link.get_attribute('href')
        if href and not href.startswith('#'):  # 过滤锚点链接
            print(href)
finally:
    driver.quit()  # 确保浏览器进程被释放

⚠️ 注意事项：

RecoveryFox AI

AI驱动的数据恢复、文件恢复工具

下载

显式等待优于 time.sleep()：生产环境中建议改用 WebDriverWait 配合 expected_conditions（例如 presence_of_element_located((By.CLASS_NAME, 'search-results'))），避免因网络波动导致等待不足或过度。
链接可能为相对路径：DTCC 的搜索结果链接多为 /documents/... 等相对 URL，需手动拼接基础域名：from urllib.parse import urljoin; full_url = urljoin('https://www.dtcc.com', href)。
与 BeautifulSoup 协同使用（推荐进阶方案）：若后续需复杂 HTML 解析（如提取标题、摘要、日期），可在 Selenium 加载完成后获取渲染后的源码，再交由 BeautifulSoup 处理：

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
for a in soup.select('.search-results a[href]'):
    print(urljoin('https://www.dtcc.com', a['href']))

总结：面对现代 SPA（单页应用）或 JS 渲染型搜索页，requests + BeautifulSoup 是“静态抓取”的黄金组合，但遇到动态内容时必须升级为“浏览器级抓取”。Selenium 不仅解决了可见性问题，还提供了精确的 DOM 控制能力——掌握其基本用法，是构建鲁棒网络爬虫的关键一步。

立即学习“Java免费学习笔记（深入）”；

如何在 React 中根据动态数据实时切换组件样式

React 按钮仅在开发者工具中显示？原因与解决方案

如何为按钮添加悬停时平滑移动到页面中央的动画效果

如何为按钮添加悬停时向右平移至页面中心的动画效果

如何为按钮添加悬停时向右平移至容器中心的动画效果

相关标签:

react javascript java html js 前端 ajax 网络爬虫浏览器工具 ai 爬虫 ajax beautifulsoup JS dom 异步 href http https 自动化

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html5日期格式显示乱码咋办_html5日期格式编码修复法【方案】下一篇：html个人页面联系表单如何做_html表单控件编写指南【表单】

作者最新文章

TensorRT LLM— NVIDIA开源的大模型推理优化框架

2026-01-27 16:20

TikTok私信收不到消息如何解决

2026-01-27 16:23

如何正确设置 Android Button 的背景色与标题文字颜色

2026-01-27 16:37

SHA256加盐哈希在PHP与C#中保持一致的关键要点

2026-01-27 16:42

为了塞进第二颗摄像头 iPhone Air 2首发定制超薄Face ID

2026-01-27 16:42

淘宝联盟如何关闭个性化广告

2026-01-27 17:03

如何在 Go 中将日志输出到标准错误流（stderr）

2026-01-27 17:16

里昂"见死不救"？《生化危机9》演示细节引粉丝争议

2026-01-27 17:20

标题：Android ListView 初始化错误导致应用崩溃的解决方案

2026-01-27 17:20

如何通过用户脚本或浏览器扩展实现图片上传到 Twitter/Reddit

2026-01-27 17:29

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI 编程开发 AI 聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI 编程开发 AI大模型

通义千问

阿里巴巴推出的全能AI助手

AI 编程开发 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 AI 聊天问答

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI 编程开发 AI 文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI 文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI 编程开发 AI 文本写作

智谱清言 - 免费全能的AI助手

AI 编程开发 Agent智能体

相关专题

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

159

2023.06.14