0

0

使用Selenium高效抓取Google地图完整评论:处理“更多”按钮与动态加载

花韻仙語

花韻仙語

发布时间:2025-12-13 13:12:53

|

193人浏览过

|

来源于php中文网

原创

使用selenium高效抓取google地图完整评论:处理“更多”按钮与动态加载

本教程详细介绍了如何利用Selenium自动化浏览器抓取Google地图上的商家评论。文章聚焦于解决动态加载评论(通过滚动)和处理被截断的评论(点击“更多”按钮)两大挑战。通过提供清晰的步骤、示例代码和最佳实践,旨在帮助读者构建一个稳定、高效的评论抓取解决方案,确保获取到每一条评论的完整内容。

1. 引言:Google地图评论抓取的挑战

Google地图的评论页面通常采用动态加载机制,这意味着初始页面仅显示部分评论。用户需要滚动页面才能加载更多评论。此外,为了保持页面简洁,较长的评论会被截断,显示一个“更多”按钮。要获取这些评论的完整内容,必须模拟点击这些“更多”按钮。本教程将详细讲解如何使用Python和Selenium库应对这些挑战,实现Google地图评论的全面抓取。

2. 环境准备与Selenium基础配置

在开始之前,请确保您的Python环境中已安装Selenium库和对应浏览器(如Chrome)的WebDriver。

pip install selenium webdriver-manager

初始化WebDriver

我们将使用Chrome浏览器进行演示。webdriver-manager库可以帮助我们自动管理ChromeDriver的版本。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import TimeoutException, NoSuchElementException, StaleElementReferenceException
import time

# 目标Google地图商家评论页面的URL
# 请替换为你要抓取的实际URL
TARGET_URL = 'https://www.google.com/maps/place/Henn+na+Hotel+Tokyo+Asakusa+Tawaramachi/@35.7081692,139.7888494,17z/data=!4m22!1m12!3m11!1s0x60188f36ab21f05b:0x9241dab287ff62c9!2sHenn+na+Hotel+Tokyo+Asakusa+Tawaramachi!5m2!4m1!1i2!8m2!3d35.7081692!4d139.7914243!9m1!1b1!16s%2Fg%2F11h0gzlhht!3m8!1s0x60188f36ab21f05b:0x9241dab287ff62c9!5m2!4m1!1i2!8m2!3d35.7081692!4d139.7914243!16s%2Fg%2F11h0gzlhht?entry=ttu'

# 配置Chrome选项
chrome_options = Options()
# chrome_options.add_argument('--headless') # 无头模式运行,不显示浏览器界面
chrome_options.add_argument('--no-sandbox')
chrome_options.add_argument('--disable-dev-shm-usage')
chrome_options.add_argument('--start-maximized') # 启动时最大化窗口,确保元素可见

# 初始化WebDriver
driver = webdriver.Chrome(options=chrome_options)
driver.get(TARGET_URL)

3. 处理Cookie同意弹窗

许多网站在首次访问时会显示Cookie同意弹窗。我们需要识别并点击同意按钮以继续。

BlackBox AI
BlackBox AI

AI编程助手,智能对话问答助手

下载
def accept_cookie_policy(driver):
    """尝试点击Cookie同意按钮。"""
    try:
        # 等待页面加载,并尝试找到“Accept all”按钮
        # 寻找所有按钮,然后通过文本内容筛选
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.TAG_NAME, 'button'))
        )
        buttons = driver.find_elements(By.TAG_NAME, 'button')
        for button in buttons:
            if "Accept all" in button.text: # 使用in操作符更健壮
                print("点击 'Accept all' Cookie按钮。")
                button.click()
                time.sleep(2) # 等待弹窗消失
                return True
    except TimeoutException:
        print("未找到或无法点击Cookie政策按钮。")
    except Exception as e:
        print(f"处理Cookie时发生错误: {e}")
    return False

accept_cookie_policy(driver)

4. 导航至评论区

在某些Google地图页面中,评论可能不是默认显示的。我们需要找到并点击“评论”选项卡或按钮。

def navigate_to_reviews(driver):
    """导航到评论区。"""
    try:
        # 等待页面加载,并找到“Reviews”按钮
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.TAG_NAME, 'button'))
        )
        all_buttons = driver.find_elements(By.TAG_NAME, 'button')
        for button in all_buttons:
            if "Reviews" in button.text:
                print("点击 'Reviews' 按钮。")
                button.click()
                time.sleep(3) # 等待评论区加载
                return True
    except TimeoutException:
        print("未找到 'Reviews' 按钮。")
    except Exception as e:
        print(f"导航到评论区时发生错误: {e}")
    return False

navigate_to_reviews(driver)

5. 滚动加载所有评论

这是获取所有评论的关键一步。我们需要找到评论区的可滚动容器,并模拟滚动操作,直到所有评论都被加载。

def scroll_to_load_all_reviews(driver):
    """滚动评论区以加载所有评论。"""
    print("开始滚动加载所有评论...")
    # Google Maps评论的滚动容器通常具有特定的class或aria-label
    # 经过观察,评论列表本身是一个可滚动区域,其父级可能是一个具有特定样式的div
    # 尝试找到评论列表的父级滚动容器,这里使用一个常见的类名组合
    # 如果这个选择器失效,需要根据实际页面结构调整
    try:
        # 查找包含评论的滚动容器。这里假定评论列表的直接父元素是可滚动的。
        # 实际的Google Maps页面结构可能会有所不同,可能需要更精确的定位。
        # 示例中使用的类名 'm6QErb' 'DxyBCb' 'kA9KIf' 'dS8AEf' 是一个常见的组合,但可能变化。
        # 更稳健的方法可能是寻找一个具有 `role="feed"` 或 `aria-label="Reviews"` 的元素。
        review_scroll_container = WebDriverWait(driver, 15).until(
            EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'm6QErb') and contains(@class, 'DxyBCb') and contains(@class, 'kA9KIf') and contains(@class, 'dS8AEf')]"))
        )
    except TimeoutException:
        print("未找到评论滚动容器,请检查XPath或页面结构。")
        return

    last_height = driver.execute_script("return arguments[0].scrollHeight", review_scroll_container)

    while True:
        # 模拟滚动到底部
        driver.execute_script("arguments[0].scrollTop = arguments[0].scrollHeight", review_scroll_container)
        time.sleep(3) # 等待新内容加载

        new_height = driver.execute_script("return arguments[0].scrollHeight", review_scroll_container)
        if new_height == last_height:
            # 如果滚动高度没有变化,说明已经到达底部
            print("所有评论已加载。")
            break
        last_height = new_height

    # 滚动到顶部,确保所有元素在视口内以便后续操作(可选,但有时有用)
    driver.execute_script("arguments[0].scrollTop = 0", review_scroll_container)
    time.sleep(2)

scroll_to_load_all_reviews(driver)

6. 展开并提取完整评论

在所有评论加载完成后,我们需要遍历每一条评论,检查是否存在“更多”按钮,如果存在则点击它,然后提取完整的评论文本。

def extract_full_reviews(driver):
    """展开所有“更多”按钮并提取完整评论。"""
    print("开始展开评论并提取内容...")
    all_reviews_data = []

    # 查找所有评论容器。Google Maps中每个评论通常在一个具有特定类名的div中。
    # 'jftiEf' 是一个常见的评论容器类名。
    review_elements = WebDriverWait(driver, 10).until(
        EC.presence_of_all_elements_located((By.CLASS_NAME, 'jftiEf'))
    )

    print(f"找到 {len(review_elements)} 条评论容器。")

    for i, review_element in enumerate(review_elements):
        try:
            # 尝试在当前评论容器内查找“More”按钮
            # 'w8nwRe' 是“More”按钮的常见类名
            more_button = review_element.find_element(By.CLASS_NAME, "w8nwRe")
            if "More" in more_button.text: # 再次确认文本是“More”
                more_button.click()
                time.sleep(1) # 点击后等待内容展开
                print(f"点击了第 {i+1} 条评论的 'More' 按钮。")
        except NoSuchElementException:
            # 没有“More”按钮,评论已是完整内容
            pass
        except StaleElementReferenceException:
            # 元素过时,通常是因为页面内容发生变化,尝试重新定位
            print(f"第 {i+1} 条评论的元素过时,尝试重新定位...")
            review_elements = WebDriverWait(driver, 5).until(
                EC.presence_of_all_elements_located((By.CLASS_NAME, 'jftiEf'))
            )
            # 重新获取当前评论元素并重试
            try:
                review_element = review_elements[i]
                more_button = review_element.find_element(By.CLASS_NAME, "w8nwRe")
                if "More" in more_button.text:
                    more_button.click()
                    time.sleep(1)
                    print(f"重新点击了第 {i+1} 条评论的 'More' 按钮。")
            except Exception as e:
                print(f"重新处理第 {i+1} 条评论时仍然出错: {e}")
                pass # 忽略错误,继续下一条

        # 提取评论的完整文本
        # 'wiI7pd' 可能是包含评论文本的元素
        try:
            review_text_element = review_element.find_element(By.CLASS_NAME, 'wiI7pd')
            full_review_text = review_text_element.text
            all_reviews_data.append(full_review_text)
        except NoSuchElementException:
            print(f"未找到第 {i+1} 条评论的文本内容元素。")
            all_reviews_data.append("评论文本未找到") # 记录缺失
        except Exception as e:
            print(f"提取第 {i+1} 条评论文本时发生错误: {e}")
            all_reviews_data.append(f"提取失败: {e}")

    return all_reviews_data

# 执行提取
reviews = extract_full_reviews(driver)

# 打印结果
print("\n--- 抓取到的完整评论 ---")
for idx, review in enumerate(reviews):
    print(f"评论 {idx+1}:\n{review}\n---")

# 关闭浏览器
driver.quit()

7. 完整代码示例

将上述所有步骤整合,形成一个完整的评论抓取脚本:

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.common.keys import Keys
from selenium.common.exceptions import TimeoutException, NoSuchElementException, StaleElementReferenceException
import time
import csv

# 目标Google地图商家评论页面的URL
TARGET_URL = 'https://www.google.com/maps/place/Henn+na+Hotel+Tokyo+Asakusa+Tawaramachi/@35.7081692,139.7888494,17z/data=!4m22!1m12!3m11!1s0x60188f36ab21f05b:0x9241dab287ff62c9!2sHenn+na+Hotel+Tokyo+Asakusa+Tawaramachi!5m2!4m1!1i2!8m2!3d35.7081692!4d139.7914243!9m1!1b1!16s%2Fg%2F11h0gzlhht!3m8!1s0x60188f36ab21f05b:0x9241dab287ff62c9!5m2!4m1!1i2!8m2!3d35.7081692!4d139.7914243!16s%2Fg%2F11h0gzlhht?entry=ttu'

def initialize_driver():
    """初始化Chrome WebDriver并返回实例。"""
    chrome_options = Options()
    # chrome_options.add_argument('--headless') # 无头模式运行,不显示浏览器界面
    chrome_options.add_argument('--no-sandbox')
    chrome_options.add_argument('--disable-dev-shm-usage')
    chrome_options.add_argument('--start-maximized') # 启动时最大化窗口,确保元素可见
    chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124124 Safari/537.36")

    driver = webdriver.Chrome(options=chrome_options)
    driver.get(TARGET_URL)
    return driver

def accept_cookie_policy(driver):
    """尝试点击Cookie同意按钮。"""
    try:
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.TAG_NAME, 'button'))
        )
        buttons = driver.find_elements(By.TAG_NAME, 'button')
        for button in buttons:
            if "Accept all" in button.text:
                print("点击 'Accept all' Cookie按钮。")
                button.click()
                time.sleep(2)
                return True
    except TimeoutException:
        print("未找到或无法点击Cookie政策按钮。")
    except Exception as e:
        print(f"处理Cookie时发生错误: {e}")
    return False

def navigate_to_reviews(driver):
    """导航到评论区。"""
    try:
        WebDriverWait(driver, 10).until(
            EC.presence_of_element_located((By.TAG_NAME, 'button'))
        )
        all_buttons = driver.find_elements(By.TAG_NAME, 'button')
        for button in all_buttons:
            if "Reviews" in button.text:
                print("点击 'Reviews' 按钮。")
                button.click()
                time.sleep(3)
                return True
    except TimeoutException:
        print("未找到 'Reviews' 按钮。")
    except Exception as e:
        print(f"导航到评论区时发生错误: {e}")
    return False

def scroll_to_load_all_reviews(driver):
    """滚动评论区以加载所有评论。"""
    print("开始滚动加载所有评论...")
    try:
        review_scroll_container = WebDriverWait(driver, 15).until(
            EC.presence_of_element_located((By.XPATH, "//div[contains(@class, 'm6QErb') and contains(@class, 'DxyBCb') and contains(@class, 'kA9KIf') and contains(@class, 'dS8AEf')]"))
        )
    except TimeoutException:
        print("未找到评论滚动容器,请检查XPath或页面结构。")
        return

    last_height = driver.execute_script("return arguments[0].scrollHeight", review_scroll_container)

    while True:

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
chrome什么意思
chrome什么意思

chrome是浏览器的意思,由Google开发的网络浏览器,它在2008年首次发布,并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容,供大家免费下载体验。

833

2023.08.11

chrome无法加载插件怎么办
chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题,详情请看本专题下面的文章。php中文网欢迎大家前来学习。

744

2023.11.06

cookie
cookie

Cookie 是一种在用户计算机上存储小型文本文件的技术,用于在用户与网站进行交互时收集和存储有关用户的信息。当用户访问一个网站时,网站会将一个包含特定信息的 Cookie 文件发送到用户的浏览器,浏览器会将该 Cookie 存储在用户的计算机上。之后,当用户再次访问该网站时,浏览器会向服务器发送 Cookie,服务器可以根据 Cookie 中的信息来识别用户、跟踪用户行为等。

6427

2023.06.30

document.cookie获取不到怎么解决
document.cookie获取不到怎么解决

document.cookie获取不到的解决办法:1、浏览器的隐私设置;2、Same-origin policy;3、HTTPOnly Cookie;4、JavaScript代码错误;5、Cookie不存在或过期等等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

347

2023.11.23

阻止所有cookie什么意思
阻止所有cookie什么意思

阻止所有cookie意味着在浏览器中禁止接受和存储网站发送的cookie。阻止所有cookie可能会影响许多网站的使用体验,因为许多网站使用cookie来提供个性化服务、存储用户信息或跟踪用户行为。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

411

2024.02.23

cookie与session的区别
cookie与session的区别

本专题整合了cookie与session的区别和使用方法等相关内容,阅读专题下面的文章了解更详细的内容。

93

2025.08.19

PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

41

2025.12.13

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

2

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

446

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号