如何使用 Selenium 正确提取 JavaScript 渲染的搜索结果链接

心靈之曲

发布时间：2026-01-28 11:47:12

176人浏览过

来源于php中文网

原创

如何使用 Selenium 正确提取 JavaScript 渲染的搜索结果链接

本文详解为何 requests + beautifulsoup 无法获取 dtcc 搜索页的真实结果链接，并提供基于 selenium 的可靠解决方案，支持无头模式自动化抓取动态加载的搜索结果 url。

DTCC 官网（https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e）的搜索结果是通过 JavaScript 动态渲染生成的——页面初始 HTML 中不包含实际的搜索结果链接，而是由前端脚本（如 React 或 AJAX）在浏览器中运行后才插入 DOM。因此，使用 requests 获取的原始 HTML 仅含占位结构（如空的 <div class="search-results">），BeautifulSoup 自然无法解析出目标链接。

你原代码中的正则匹配 href 含 "http" 的 <a> 标签，实际捕获的是页面头部、导航栏、脚本资源等静态链接，而非动态注入的搜索结果项，这是典型“服务端渲染缺失”导致的爬虫失效场景。

✅ 正确做法是：使用浏览器自动化工具执行 JavaScript，等待内容加载完成后再提取。推荐方案如下：

方案一：纯 Selenium 提取（推荐）

from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
import time

search_url = "https://www.php.cn/link/8dc56b3dd5380fcd7402ce0fbc75cb1e?q=aggregated%20transaction%20data"

# 配置无头 Chrome（不显示界面，适合服务器部署）
opts = Options()
opts.add_argument('--headless')
opts.add_argument('--no-sandbox')
opts.add_argument('--disable-dev-shm-usage')

driver = webdriver.Chrome(options=opts)
try:
    driver.get(search_url)
    # 等待搜索结果容器加载并至少出现一个链接（更健壮可改用 WebDriverWait）
    time.sleep(5)

    results_container = driver.find_element(By.CLASS_NAME, 'search-results')
    result_links = results_container.find_elements(By.TAG_NAME, 'a')

    for link in result_links:
        href = link.get_attribute('href')
        if href and not href.startswith('#') and 'javascript:' not in href:
            print(href)
finally:
    driver.quit()  # 确保关闭浏览器进程

方案二：Selenium + BeautifulSoup 混合（灵活性更高）

若需复用 BeautifulSoup 的解析能力（如提取标题、摘要等），可在 JS 渲染后获取完整 HTML：

吉卜力风格图片在线生成

将图片转换为吉卜力艺术风格的作品

下载

立即学习“Java免费学习笔记（深入）”；

html = driver.page_source
soup = BeautifulSoup(html, 'html.parser')
for a in soup.select('.search-results a[href]'):
    print(a['href'])

⚠️ 注意事项：

必须设置合理等待时间（或使用 WebDriverWait 显式等待 .search-results a 出现），避免因加载延迟导致空结果；
生产环境建议添加异常处理（如 NoSuchElementException）、超时控制及 User-Agent 设置；
确保 ChromeDriver 版本与本地 Chrome 浏览器兼容；
遵守 robots.txt（DTCC 的 /robots.txt 允许 /search，但仍建议控制请求频率，避免对服务器造成压力）。

总结：当目标内容由 JavaScript 动态注入时，requests 是无效的“静态快照工具”，而 Selenium 是模拟真实用户行为的“动态执行引擎”。掌握这一区分，是突破现代 SPA（单页应用）网站反爬限制的关键一步。

React 中安全渲染带换行与关键词高亮的代码字符串教程

如何在 React 中安全地格式化带换行与高亮关键词的代码字符串

React 中使用 Socket.IO 实现页面刷新前的可控退出与连接清理

如何在 React 中安全地格式化含换行与关键词高亮的代码字符串

如何在鼠标松开时提交滑块最终值（而非拖拽过程中的每个中间值）

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：html个人页面怎么加分隔线_html水平线设计与样式【细节】下一篇：C# CS0120 错误解析与 Razor 页面中非静态成员访问的正确写法

作者最新文章

如何在 MAMP 中正确访问本地 PHP 项目文件

2026-03-12 16:13

如何让 Flex 布局的双栏页脚在移动端自动堆叠显示

2026-03-12 16:17

Steam新主机配件短缺 V社在GDC上公开求购内存条

2026-03-12 16:26

Go 标准库中无函数体的导出函数是如何工作的？

2026-03-12 16:34

如何在 Reactor 非阻塞线程中安全获取并复用 API 认证 Token

2026-03-12 16:48

vscode安装包打开后怎么安装

2026-03-12 16:50

如何在 JavaScript 对象中为多个数组批量插入新元素（如新增关键帧）

2026-03-12 17:03

《零红蝶：重制版》Steam多半好评：移植出色玩法升级

2026-03-12 17:04

Spring Boot 服务层事务失效的典型原因与解决方案

2026-03-12 17:37

PHP中true == "expired"为何为真？深入理解松散比较与类型转换

2026-03-12 17:45

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

166

2023.06.14