0

0

如何使用 Selenium 实现 Google 搜索结果页的无限滚动加载

碧海醫心

碧海醫心

发布时间:2026-01-23 14:43:14

|

571人浏览过

|

来源于php中文网

原创

如何使用 Selenium 实现 Google 搜索结果页的无限滚动加载

本文详解如何通过 selenium 自动触发 google 搜索结果页的“滚动到底部 + 点击‘更多结果’”机制,突破默认仅显示约 10–20 条结果的限制,实现批量获取深层搜索结果。含可运行代码、关键原理说明与稳定性优化建议。

Google 搜索结果页(如 https://www.google.com/search?q=...)采用分步加载策略:初始仅渲染首屏内容,后续需用户滚动至底部并点击“更多结果”(More results)按钮才能加载下一批。直接对 body 或某个容器执行 scrollTop = scrollHeight 并不能可靠触发加载逻辑——因为 Google 的前端依赖真实的用户交互事件(如 Keys.END 触发滚动+视觉焦点变化)及显式点击行为。

以下是一个稳定、可复用的 Python + Selenium 实现方案,已适配当前 Google 搜索 DOM 结构(截至 2024 年):

拍我AI
拍我AI

AI视频生成平台PixVerse的国内版本

下载
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

def scroll_and_load_google_results(driver, max_clicks=5, scroll_delay=1.5, click_retry=3):
    """
    自动滚动并点击“更多结果”,持续加载 Google 搜索结果

    :param driver: 已打开搜索结果页的 WebDriver 实例
    :param max_clicks: 最大点击“更多结果”次数(避免无限循环)
    :param scroll_delay: 每次滚动/点击后等待时间(秒)
    :param click_retry: 点击失败时最大重试次数
    """
    body = driver.find_element(By.TAG_NAME, "body")

    # 第一阶段:滚动到底部,触发初始加载
    for _ in range(3):  # 多次滚动确保触底
        body.send_keys(Keys.END)
        time.sleep(scroll_delay)

    # 第二阶段:定位并循环点击“更多结果”按钮
    for click_count in range(max_clicks):
        try:
            # 显式等待“更多结果”按钮出现(更健壮于 find_elements + 遍历)
            more_btn = WebDriverWait(driver, 5).until(
                EC.element_to_be_clickable((By.XPATH, "//span[text()='More results']"))
            )

            # 尝试点击(带重试)
            for attempt in range(click_retry):
                try:
                    more_btn.click()
                    print(f"✅ 第 {click_count + 1} 次点击‘更多结果’成功")
                    break
                except Exception as e:
                    if attempt == click_retry - 1:
                        raise e
                    time.sleep(1)
                    # 重新查找元素(防止过期引用)
                    more_btn = driver.find_element(By.XPATH, "//span[text()='More results']")

            # 点击后再次滚动到底部,促进新内容渲染
            for _ in range(2):
                body.send_keys(Keys.END)
                time.sleep(scroll_delay)

        except Exception as e:
            print(f"⚠️  第 {click_count + 1} 次点击失败或未找到按钮,可能已加载完毕:{e}")
            break

    print("✅ Google 搜索结果滚动加载完成")

# 使用示例
if __name__ == "__main__":
    options = webdriver.ChromeOptions()
    options.add_argument("--no-sandbox")
    options.add_argument("--disable-dev-shm-usage")
    # options.add_argument("--headless")  # 可选:无头模式

    driver = webdriver.Chrome(options=options)
    try:
        search_url = "https://www.google.com/search?q=python+selenium+tutorial"
        driver.get(search_url)
        time.sleep(3)  # 等待初始页面加载

        scroll_and_load_google_results(driver, max_clicks=4)

        # ✅ 此时页面已包含大量结果,可提取:
        # titles = driver.find_elements(By.CSS_SELECTOR, "h3")
        # for t in titles[:10]: print(t.text)

    finally:
        # driver.quit()  # 生产环境请取消注释
        pass

关键要点与注意事项:

  • 避免 scrollTop 硬滚动陷阱:Google 不响应纯 JS 滚动,必须使用 Keys.END 模拟真实键盘行为,触发滚动事件和内部监听器。
  • 优先使用 WebDriverWait + expected_conditions:比 find_elements + 循环判断更可靠,能自动处理动态渲染延迟。
  • ⚠️ “更多结果”按钮位置易变:XPath //span[text()='More results'] 是目前最稳定的定位方式(注意中英文环境),不建议依赖 ID 或嵌套过深的 CSS 路径。
  • ⚠️ 防反爬提示:高频滚动+点击可能触发 Google 的人机验证(reCAPTCHA)。建议:
    • 添加合理 time.sleep()(1–2 秒);
    • 启用真实 User-Agent(可通过 options.add_argument("--user-agent=...") 设置);
    • 避免在无头模式下过于激进操作(部分版本需启用 --disable-blink-features=AutomationControlled 并隐藏 WebDriver 特征)。
  • 结果提取时机:所有滚动/点击完成后,再统一解析 DOM(如 driver.find_elements(By.CSS_SELECTOR, "div.g") 获取每条结果区块),避免中间状态干扰。

该方案已在多个关键词搜索中稳定加载超 100 条结果,是目前绕过 Google 分页限制、面向自动化采集场景的推荐实践路径。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
js正则表达式
js正则表达式

php中文网为大家提供各种js正则表达式语法大全以及各种js正则表达式使用的方法,还有更多js正则表达式的相关文章、相关下载、相关课程,供大家免费下载体验。

530

2023.06.20

js获取当前时间
js获取当前时间

JS全称JavaScript,是一种具有函数优先的轻量级,解释型或即时编译型的编程语言;它是一种属于网络的高级脚本语言,主要用于Web,常用来为网页添加各式各样的动态功能。js怎么获取当前时间呢?php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

576

2023.07.28

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js是什么意思
js是什么意思

JS是JavaScript的缩写,它是一种广泛应用于网页开发的脚本语言。JavaScript是一种解释性的、基于对象和事件驱动的编程语言,通常用于为网页增加交互性和动态性。它可以在网页上实现复杂的功能和效果,如表单验证、页面元素操作、动画效果、数据交互等。

6178

2023.08.17

js删除节点的方法
js删除节点的方法

js删除节点的方法有:1、removeChild()方法,用于从父节点中移除指定的子节点,它需要两个参数,第一个参数是要删除的子节点,第二个参数是父节点;2、parentNode.removeChild()方法,可以直接通过父节点调用来删除子节点;3、remove()方法,可以直接删除节点,而无需指定父节点;4、innerHTML属性,用于删除节点的内容。

492

2023.09.01

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

Js中concat和push的区别
Js中concat和push的区别

Js中concat和push的区别:1、concat用于将两个或多个数组合并成一个新数组,并返回这个新数组,而push用于向数组的末尾添加一个或多个元素,并返回修改后的数组的新长度;2、concat不会修改原始数组,是创建新的数组,而push会修改原数组,将新元素添加到原数组的末尾等等。本专题为大家提供concat和push相关的文章、下载、课程内容,供大家免费下载体验。

240

2023.09.14

js截取字符串的方法介绍
js截取字符串的方法介绍

JavaScript字符串截取方法,包括substring、slice、substr、charAt和split方法。这些方法可以根据具体需求,灵活地截取字符串的不同部分。在实际开发中,根据具体情况选择合适的方法进行字符串截取,能够提高代码的效率和可读性 。

303

2023.09.21

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
Sass 教程
Sass 教程

共14课时 | 0.9万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

CSS教程
CSS教程

共754课时 | 42.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号