使用Selenium抓取Google地图完整评论:解决“更多”内容展开问题

DDD
发布: 2025-12-06 17:13:03
原创
612人浏览过

使用Selenium抓取Google地图完整评论:解决“更多”内容展开问题

本教程旨在解决使用selenium从google地图抓取评论时,因“更多”按钮导致评论内容不完整的问题。文章将详细指导如何通过selenium模拟用户行为,包括处理cookie弹窗、导航至评论区、滚动页面加载所有评论,以及动态点击每个评论中的“更多”按钮以展开完整文本,最终高效地提取所有评论数据。

引言:动态内容抓取的挑战

在进行网页数据抓取时,动态加载的内容常常是初学者面临的挑战。Google地图的评论页面就是一个典型例子:评论内容不仅通过滚动加载,而且长篇评论还会被截断,显示一个“更多”按钮。如果不点击这些“更多”按钮,我们只能获取到部分评论文本。本教程将介绍如何使用Selenium这一强大的自动化测试工具,模拟用户交互,克服这些障碍,从而抓取到完整的Google地图评论数据。

Selenium环境准备

首先,确保您的Python环境中已安装Selenium库和Chrome浏览器驱动。推荐使用webdriver-manager来自动管理驱动。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service as ChromeService
from webdriver_manager.chrome import ChromeDriverManager
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException, StaleElementReferenceException
from selenium.webdriver.common.keys import Keys
import time

# 定义目标URL
# 请根据实际需要替换为您的Google地图商家评论页URL
TARGET_URL = 'https://www.google.com/maps/place/Henn+na+Hotel+Tokyo+Asakusa+Tawaramachi/@35.7081692,139.7888494,17z/data=!4m22!1m12!3m11!1s0x60188f36ab21f05b:0x9241dab287ff62c9!2sHenn+na+Hotel+Tokyo+Asakusa+Tawaramachi!5m2!4m1!1i2!8m2!3d35.7081692!4d139.7914243!9m1!1b1!16s%2Fg%2F11h0gzlhht!3m8!1s0x60188f36ab21f05b:0x9241dab287ff62c9!5m2!4m1!1i2!8m2!3d35.7081692!4d139.7914243!16s%2Fg%2F11h0gzlhht?entry=ttu'

# 配置Chrome选项
options = Options()
options.add_argument('--no-sandbox') # 禁用沙盒模式,在某些Linux环境下可能需要
options.add_argument('--disable-dev-shm-usage') # 禁用/dev/shm使用,在某些Docker/Linux环境下可能需要
# options.add_argument('--headless') # 启用无头模式,不显示浏览器界面,适合服务器环境

# 初始化WebDriver
driver = webdriver.Chrome(service=ChromeService(ChromeDriverManager().install()), options=options)
driver.get(TARGET_URL)

# 等待页面加载完成,例如等待H1标题出现
try:
    WebDriverWait(driver, 10).until(EC.presence_of_element_located((By.TAG_NAME, 'h1')))
    print("页面H1标题已加载。")
except TimeoutException:
    print("页面H1标题未在指定时间内加载。")
登录后复制

步骤一:处理Cookie同意弹窗

许多网站在首次访问时会显示Cookie同意弹窗。我们需要模拟点击“接受”按钮以继续。

def accept_cookie_policy():
    """尝试点击Cookie政策接受按钮"""
    try:
        # 查找所有按钮,并根据文本内容判断是否为“Accept all”
        buttons = driver.find_elements(By.TAG_NAME, 'button')
        for button in buttons:
            if button.text == "Accept all":
                print("找到并点击 'Accept all' Cookie按钮。")
                button.click()
                time.sleep(2) # 等待弹窗消失
                return
    except (TimeoutException, NoSuchElementException):
        print("Cookie政策按钮未找到或无法点击。")

accept_cookie_policy()
登录后复制

步骤二:导航至评论区

在某些Google地图页面布局中,评论可能不是默认显示的,需要点击“评论”标签页。

JoyPix AI
JoyPix AI

轻松制作AI视频、AI数字人,支持文生视频、声音克隆

JoyPix AI 175
查看详情 JoyPix AI
# 查找并点击“评论”按钮
try:
    all_buttons = driver.find_elements(By.TAG_NAME, 'button')
    for button in all_buttons:
        if button.text == 'Reviews': # 根据页面语言,可能是“评论”
            print("找到并点击 'Reviews' 按钮。")
            button.click()
            time.sleep(3) # 等待评论区加载
            break
except NoSuchElementException:
    print("未找到 'Reviews' 按钮。")
登录后复制

步骤三:滚动加载所有评论容器

Google地图的评论是动态加载的,只有滚动到页面底部,新的评论才会显示。我们需要找到评论区的滚动条,并模拟持续滚动直到所有评论加载完毕。

# 找到评论区的可滚动面板
# 经验证,该XPath通常指向包含评论的滚动容器
SCROLLABLE_REVIEWS_PANEL_XPATH = "//div[contains(@class, 'm6QErb') and contains(@class, 'DxyBCb') and contains(@class, 'kA9KIf') and contains(@class, 'dS8AEf')]"
try:
    scrollable_reviews_panel = WebDriverWait(driver, 10).until(
        EC.presence_of_element_located((By.XPATH, SCROLLABLE_REVIEWS_PANEL_XPATH))
    )
    print("找到评论滚动面板。")
except TimeoutException:
    print("未在指定时间内找到评论滚动面板。请检查XPath。")
    driver.quit()
    exit()

last_height = driver.execute_script("return arguments[0].scrollHeight", scrollable_reviews_panel)
print("开始滚动加载所有评论...")
while True:
    # 滚动到评论面板的底部
    driver.execute_script("arguments[0].scrollTo(0, arguments[0].scrollHeight);", scrollable_reviews_panel)
    time.sleep(2) # 等待新评论加载
    new_height = driver.execute_script("return arguments[0].scrollHeight", scrollable_reviews_panel)
    if new_height == last_height:
        # 如果滚动高度不再变化,说明已加载所有评论
        print("所有评论已加载。")
        break
    last_height = new_height
登录后复制

步骤四:展开所有“更多”评论内容

一旦所有评论容器加载完毕,下一步就是遍历每个评论,查找并点击其中的“更多”按钮,以显示完整的评论文本。

# 展开所有“更多”按钮
print("开始展开所有 '更多' 评论...")
# 'jftiEf' 通常是单个评论卡片的类名
review_containers = driver.find_elements(By.CLASS_NAME, 'jftiEf')
for i, container in enumerate(review_containers):
    try:
        # 'w8nwRe' 通常是“更多”按钮的类名
        more_button = container.find_element(By.CLASS_NAME, "w8nwRe")
        if more_button.text == "More": # 确保是“More”按钮
            more_button.click()
            time.sleep(0.5) # 短暂延迟,等待评论展开
            # print(f"已展开第 {i+1} 条评论的 '更多' 内容。")
    except NoSuchElementException:
        # 当前评论没有“更多”按钮,跳过
        pass
    except StaleElementReferenceException:
登录后复制

以上就是使用Selenium抓取Google地图完整评论:解决“更多”内容展开问题的详细内容,更多请关注php中文网其它相关文章!

最佳 Windows 性能的顶级免费优化软件
最佳 Windows 性能的顶级免费优化软件

每个人都需要一台速度更快、更稳定的 PC。随着时间的推移,垃圾文件、旧注册表数据和不必要的后台进程会占用资源并降低性能。幸运的是,许多工具可以让 Windows 保持平稳运行。

下载
来源:php中文网
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系admin@php.cn
最新问题
开源免费商场系统广告
热门教程
更多>
最新下载
更多>
网站特效
网站源码
网站素材
前端模板
关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新 English
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送
PHP中文网APP
随时随地碎片化学习

Copyright 2014-2025 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号