使用 Selenium 和 CSS 选择器高效抓取 Patagonia 产品数据

碧海醫心

发布时间：2025-09-08 17:26:53

767人浏览过

来源于php中文网

原创

使用 selenium 和 css 选择器高效抓取 patagonia 产品数据

本文旨在指导开发者使用 Selenium Webdriver 和 CSS 选择器从 Patagonia 网站抓取女性夹克的产品信息，包括标题、URL、图片 URL、价格、评分和评论数量。文章将提供代码示例，并着重讲解如何编写简洁高效的 CSS 选择器，以及如何处理动态加载内容和数据清洗，最终将抓取的数据保存为 CSV 文件。

环境配置

首先，确保你已经安装了以下依赖：

Python 3.6+
Selenium: pip install selenium
Chrome WebDriver: 下载与你的 Chrome 浏览器版本匹配的 WebDriver，并将其添加到系统 PATH 环境变量中。

核心代码实现

以下代码展示了如何使用 Selenium 和 CSS 选择器抓取 Patagonia 网站上的女性夹克信息，并将其保存为 CSV 文件。

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
from selenium.common.exceptions import TimeoutException, NoSuchElementException
import csv

# 配置 Chrome WebDriver
service = Service(executable_path='/path/to/chromedriver') # 替换为你的 chromedriver 路径
driver = webdriver.Chrome(service=service)

# 目标 URL
url = "https://www.patagonia.com/shop/womens"
driver.get(url)

# 用于存储产品信息的列表
product_data = []

def extract_product_data():
    """提取当前页面上的产品数据"""
    products = driver.find_elements(By.CSS_SELECTOR, '#product-search-results > div.row.product-grid.load-more-present > div[class^="col"]')
    for product in products:
        try:
            title = product.find_element(By.CSS_SELECTOR, 'div.product-tile__title > a > span').text
            product_url = product.find_element(By.CSS_SELECTOR, 'div.product-tile__title > a').get_attribute('href')
            image_url = product.find_element(By.CSS_SELECTOR, 'div.product-tile__image > a > img').get_attribute('src')
            price = product.find_element(By.CSS_SELECTOR, 'div.product-tile__price').text
            # 尝试获取评分和评论数量，如果不存在则设置为 None
            try:
                rating = product.find_element(By.CSS_SELECTOR, 'span.sr-only').get_attribute('aria-label')
                review_count = product.find_element(By.CSS_SELECTOR, 'span.oc-rating-count').text.strip('()')
            except NoSuchElementException:
                rating = None
                review_count = None

            product_data.append([title, product_url, image_url, price, rating, review_count])

        except NoSuchElementException as e:
            print(f"Error extracting data from a product: {e}")
            continue

def load_all_products():
    """滚动加载所有产品"""
    while True:
        try:
            # 找到并点击 "加载更多" 按钮
            load_more_button = WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '#product-search-results > div.row.product-grid.load-more-present > div.col-12.grid-footer > div > div > button'))
            )
            driver.execute_script("arguments[0].scrollIntoView({ behavior: 'auto', block: 'center' });", load_more_button)
            load_more_button.click()
            # 等待新内容加载 (可以根据实际情况调整等待时间)
            WebDriverWait(driver, 10).until(
                EC.presence_of_element_located((By.CSS_SELECTOR, '#product-search-results > div.row.product-grid.load-more-present > div[class^="col"]:nth-child(24)'))
            ) # 假设每次加载 24 个产品
        except (TimeoutException, NoSuchElementException):
            # 如果没有 "加载更多" 按钮或加载超时，则停止加载
            break

# 执行抓取流程
load_all_products()
extract_product_data()

# 保存数据到 CSV 文件
csv_file = "patagonia_womens_jackets.csv"
with open(csv_file, "w", newline="", encoding="utf-8") as file:
    writer = csv.writer(file)
    writer.writerow(["product title", "product URL", "product image URL", "product price", "rating", "review count"]) # 写入表头
    writer.writerows(product_data)

print(f"Data saved to {csv_file}")

# 关闭浏览器
driver.quit()

代码解析

导入必要的库: selenium, csv等。
配置 WebDriver: 指定 Chrome WebDriver 的路径。
打开目标网页: 使用 driver.get() 方法打开 Patagonia 网站。
编写 CSS 选择器: 使用简洁的 CSS 选择器定位到需要抓取的数据。例如，div.product-tile__title > a > span 用于定位产品标题。
处理动态加载: 使用 WebDriverWait 和 expected_conditions 来等待 "加载更多" 按钮出现，并模拟点击，直到所有产品都加载完毕。
数据提取: 使用 find_elements 找到所有产品元素，然后遍历每个产品，提取标题、URL、图片 URL、价格、评分和评论数量。注意使用 try...except 块来处理可能不存在的元素。
数据存储: 将提取的数据保存到 CSV 文件中。

CSS 选择器优化

编写高效的 CSS 选择器是至关重要的。以下是一些建议：

Bolt.new

Bolt.new是一个免费的AI全栈开发工具

下载

立即学习“前端免费学习笔记（深入）”；

尽量使用 class 名称: class 名称通常比 id 名称更稳定。
避免使用过于复杂的选择器: 选择器越复杂，执行效率越低。
使用子选择器（>）: 明确指定父子关系，提高选择器的准确性。
利用属性选择器: 可以使用属性选择器来定位具有特定属性的元素，例如 img[src]。
使用 nth-child() 选择器: 定位特定位置的子元素，例如上面例子中的 #product-search-results > div.row.product-grid.load-more-present > div[class^="col"]:nth-child(24)。

注意事项

网站结构变化: 网站结构可能会发生变化，导致 CSS 选择器失效。需要定期检查和更新选择器。
反爬虫机制: 网站可能会采取反爬虫措施，例如限制访问频率或使用验证码。需要采取相应的反反爬虫策略。
遵守 robots.txt: 遵守网站的 robots.txt 协议，避免抓取不允许抓取的内容。
异常处理: 完善异常处理机制，确保程序在出现错误时能够正常运行。
数据清洗: 抓取到的数据可能需要进行清洗和转换，例如去除空格、转换数据类型等。

总结

本文介绍了使用 Selenium 和 CSS 选择器从 Patagonia 网站抓取产品数据的完整流程。通过编写简洁高效的 CSS 选择器，并结合动态加载处理和数据清洗，可以高效地获取所需数据。请务必遵守网站的使用条款和 robots.txt 协议，并注意网站结构变化和反爬虫机制。

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素

如何使用 Selenium 精准定位并点击动态下拉列表中的选项

如何在 Selenium 中精准定位并选择动态下拉列表中的选项

相关专题

chrome什么意思

chrome是浏览器的意思，由Google开发的网络浏览器，它在2008年首次发布，并迅速成为全球最受欢迎的浏览器之一。本专题为大家提供chrome相关的文章、下载、课程内容，供大家免费下载体验。

1057

2023.08.11

chrome无法加载插件怎么办

chrome无法加载插件可以通过检查插件是否已正确安装、禁用和启用插件、清除插件缓存、更新浏览器和插件、检查网络连接和尝试在隐身模式下加载插件方法解决。更多关于chrome相关问题，详情请看本专题下面的文章。php中文网欢迎大家前来学习。

838

2023.11.06

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

436

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

803

2024.12.23

python升级pip

本专题整合了python升级pip相关教程，阅读下面的文章了解更多详细内容。

370

2025.07.23

数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

337

2023.10.31

php数据类型

本专题整合了php数据类型相关内容，阅读专题下面的文章了解更多详细内容。

224

2025.10.31

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板