0

0

Python爬虫多级解析结构_提高代码可维护性【教程】

冷漠man

冷漠man

发布时间:2025-12-25 22:04:36

|

764人浏览过

|

来源于php中文网

原创

应避免多级 find 链式调用,改用分层函数封装、dataclass 建模、选择器外置配置,并将动态渲染交由 playwright 等工具处理,实现解析逻辑与页面结构解耦。

python爬虫多级解析结构_提高代码可维护性【教程】

为什么直接嵌套 BeautifulSoup 查找会让代码越来越难改

多级解析不是指“爬得多”,而是指从列表页 → 详情页 → 子字段(如发布时间、作者、标签)逐层提取。一旦用 find().find().find() 连写三层以上,任意一级结构微调(比如 class 名加了前缀、父容器换了标签),整条链就崩,报 AttributeError: 'NoneType' object has no attribute 'find'

更麻烦的是:这种写法把「页面结构」和「业务逻辑」死绑在一起,想换个网站复用?得重写所有查找路径。

  • 避免用 soup.find('div', class_='list').find('a').get('href') 这类长链式调用
  • 把每层提取逻辑封装成独立函数,输入 HTML 片段,输出结构化字典
  • 每层函数内部用 select_one() + try/except 容错,不抛错,只返回 None 或默认值

dataclass 定义层级数据模型,而不是用字典硬编码

很多人用 {'title': ..., 'author': ..., 'pub_time': ...} 手动拼字典,结果新增字段时要改七八处,字段校验全靠注释——这根本不是结构,是字符串拼接。

@dataclass 明确声明每层的数据契约,配合 Optionaldefault_factory 处理缺失字段,既可读又可被 IDE 自动补全、类型检查:

立即学习Python免费学习笔记(深入)”;

from dataclasses import dataclass, field
from typing import Optional, List
<p>@dataclass
class Article:
title: str
url: str
author: Optional[str] = None
pub_time: Optional[str] = None</p><p>@dataclass
class ListPage:
articles: List[Article] = field(default_factory=list)
next_page_url: Optional[str] = None

后续解析函数的返回类型就能写成 def parse_article(html: str) -> Article:,类型即文档。

把选择器配置抽到 JSON/YAML,别写死在 Python 里

当你要支持多个目标站点(比如同时抓知乎专栏和 CSDN 博客),每个站的 class 名、结构都不同,但解析流程一致——这时硬编码 find('h1', class_='post-title') 就成了维护噩梦。

ColorMagic
ColorMagic

AI调色板生成工具

下载

把选择器按层级拆开,存成配置:

{
  "list": {
    "items": "article.post",
    "url": "a.title-link::attr(href)",
    "next": "a.next-page::attr(href)"
  },
  "detail": {
    "title": "h1.entry-title",
    "author": ".author-name",
    "pub_time": "time.published::attr(datetime)"
  }
}

然后写一个通用解析器:

def parse_with_selectors(html: str, selectors: dict, target: str) -> Optional[str]:
    soup = BeautifulSoup(html, 'html.parser')
    sel = selectors.get(target)
    if not sel:
        return None
    el = soup.select_one(sel)
    if not el:
        return None
    # 自动处理 attr 提取、text 提取、默认空字符串
    if '::attr(' in sel:
        attr_name = sel.split('::attr(')[1].rstrip(')')
        return el.get(attr_name)
    return el.get_text(strip=True)

这样换站点只需换配置文件,不用碰核心逻辑。

遇到动态渲染或反爬跳转,别在解析层硬扛

如果目标页用了 JavaScript 渲染内容,或者跳转依赖 meta refresh / window.location,还在 BeautifulSoup 里加各种正则匹配 URL、模拟跳转逻辑——这就越走越偏了。

多级解析的前提是「HTML 已就绪」。该交给浏览器的就交给 PlaywrightSelenium,让它负责加载、等待、跳转,最后把最终 HTML 交给你的解析函数:

  • page.content() 拿到渲染后 HTML,再传给 parse_list_page()
  • 不要在解析函数里调用 driver.get() 或做等待 —— 职责必须隔离
  • 如果某一层始终拿不到数据,优先查是不是没等元素出现,而不是怀疑选择器写错了

真正容易被忽略的点:很多人把「解析」和「获取」混在一起,导致调试时分不清是网络问题、渲染问题,还是选择器写错了。分清楚谁负责加载、谁负责提取,出问题才好定位。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

455

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

js 字符串转数组
js 字符串转数组

js字符串转数组的方法:1、使用“split()”方法;2、使用“Array.from()”方法;3、使用for循环遍历;4、使用“Array.split()”方法。本专题为大家提供js字符串转数组的相关的文章、下载、课程内容,供大家免费下载体验。

760

2023.08.03

js截取字符串的方法
js截取字符串的方法

js截取字符串的方法有substring()方法、substr()方法、slice()方法、split()方法和slice()方法。本专题为大家提供字符串相关的文章、下载、课程内容,供大家免费下载体验。

221

2023.09.04

java基础知识汇总
java基础知识汇总

java基础知识有Java的历史和特点、Java的开发环境、Java的基本数据类型、变量和常量、运算符和表达式、控制语句、数组和字符串等等知识点。想要知道更多关于java基础知识的朋友,请阅读本专题下面的的有关文章,欢迎大家来php中文网学习。

1566

2023.10.24

C# ASP.NET Core微服务架构与API网关实践
C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开,系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例,帮助开发者掌握构建高可用微服务系统的关键技术,提高系统的可扩展性与维护效率。

3

2026.03.11

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号