Python爬虫：循环遍历HTML并追踪指定链接

花韻仙語

发布时间：2025-11-21 11:22:01

968人浏览过

来源于php中文网

原创

Python爬虫：循环遍历HTML并追踪指定链接

本文详细介绍了如何使用python的`urllib`和`beautifulsoup`库实现网页链接的迭代追踪。教程将指导读者如何编写代码，从一个起始url开始，连续访问并解析网页，每次提取并跟随页面上的特定链接（例如第三个链接），从而实现多层深度的数据抓取。文章重点讲解了在循环中正确管理url变量和链接列表的关键技巧，确保程序能够按预期顺序访问不同的页面。

在进行网页数据抓取时，经常需要从一个页面跳转到另一个页面，甚至需要按照特定规则（例如，总是点击页面的第三个链接）进行多层深度遍历。本教程将详细讲解如何使用Python的urllib库进行网络请求，以及BeautifulSoup库解析HTML内容，以实现这种迭代式的链接追踪功能。

核心工具：urllib 与 BeautifulSoup

urllib.request: Python标准库的一部分，用于打开和读取URLs。它是进行HTTP请求的基础。
urllib.parse.urljoin: 用于将相对URL与基础URL合并，生成一个完整的绝对URL。这对于处理网页中常见的相对链接非常重要。
BeautifulSoup: 一个功能强大的Python库，用于从HTML或XML文件中提取数据。它能够将复杂的HTML结构解析成易于操作的Python对象，方便我们查找和提取元素。

实现步骤与代码示例

我们的目标是编写一个程序，从一个给定的URL开始，重复以下过程：

打开当前URL。
解析HTML内容。
提取页面上的所有链接。
选择第三个链接作为下一个要访问的URL。
重复这个过程指定次数。

下面是实现这一功能的优化代码示例：

import urllib.request, urllib.parse, urllib.error
from urllib.parse import urljoin
from bs4 import BeautifulSoup

# 1. 初始设置：定义起始URL
# 用户输入URL，如果为空则使用默认URL
initial_url = input('Enter URL: ')
if len(initial_url) < 1:
    initial_url = 'http://py4e-data.dr-chuck.net/known_by_Fikret.html'

current_url = initial_url # 用于迭代追踪的当前URL

# 2. 主循环逻辑：重复追踪指定次数
# 这里循环4次，意味着会访问5个页面（初始页面 + 4次追踪）
print(f"Starting URL: {current_url}")
for i in range(4): # 循环4次，以获取4个后续链接
    print(f"\n--- Iteration {i+1} ---")

    try:
        # 2.1 获取当前URL的HTML内容
        html = urllib.request.urlopen(current_url).read()
        soup = BeautifulSoup(html, 'html.parser')
    except Exception as e:
        print(f"Error accessing or parsing URL {current_url}: {e}")
        break # 遇到错误则退出循环

    # 2.2 提取页面上的所有链接
    tags = soup('a') # 查找所有<a>标签
    links_on_page = [] # 用于存储当前页面所有链接的列表

    for tag in tags:
        href = tag.get('href', None) # 获取href属性
        if href:
            links_on_page.append(href)

    # 2.3 选择目标链接（例如，第三个链接）并更新URL
    if len(links_on_page) > 2: # 确保至少有三个链接
        next_relative_url = links_on_page[2] # Python列表索引从0开始，所以索引2是第三个链接

        # 使用urljoin将相对URL转换为绝对URL，并更新current_url
        current_url = urljoin(current_url, next_relative_url)
        print(f"Next URL to follow (3rd link): {current_url}")
    else:
        print(f"Warning: Less than 3 links found on page {current_url}. Stopping.")
        break # 链接不足时停止追踪

# 期望输出示例（根据实际链接内容而定）:
# Starting URL: http://py4e-data.dr-chuck.net/known_by_Fikret.html
#
# --- Iteration 1 ---
# Next URL to follow (3rd link): http://py4e-data.dr-chuck.net/known_by_Montgomery.html
#
# --- Iteration 2 ---
# Next URL to follow (3rd link): http://py4e-data.dr-chuck.net/known_by_Mhairade.html
#
# --- Iteration 3 ---
# Next URL to follow (3rd link): http://py4e-data.dr-chuck.net/known_by_Butchi.html
#
# --- Iteration 4 ---
# Next URL to follow (3rd link): http://py4e-data.dr-chuck.net/known_by_Anayah.html

代码解析与关键点

URL变量的迭代更新:

立即学习“Python免费学习笔记（深入）”；
- 在每次外层循环开始时，current_url变量存储的是当前需要访问的页面URL。
- 在循环内部，我们首先使用current_url获取页面内容。
- 然后，从该页面中提取所有链接，并选择第三个链接作为下一个目标。
- 关键在于： 在内层逻辑（提取链接并选择目标）完成后，将current_url更新为新的目标链接。这样，下一次外层循环迭代时，就会使用这个新的current_url来访问下一个页面。
链接列表的独立性 (links_on_page = []):

腾讯交互翻译
腾讯AI Lab发布的一款AI辅助翻译产品

下载
- 为了确保每次循环迭代都只处理当前页面的链接，我们创建了一个名为links_on_page的临时列表。
- 这个列表在每次外层循环开始时，都会被重新清空或重新创建，以避免累积之前页面的链接。这保证了links_on_page[2]总是指向当前页面的第三个链接。
urljoin 的使用:
- 网页中的链接可以是绝对URL（如http://example.com/page.html）或相对URL（如/path/to/page.html或../another.html）。
- urljoin(base_url, relative_url)函数能够智能地将relative_url与base_url合并，生成一个完整的绝对URL。这大大增强了代码的健壮性，使其能够正确处理各种类型的链接。
索引选择 (links_on_page[2]):
- Python列表的索引是从0开始的。因此，要获取列表中的第三个元素，应该使用索引2。
- 在访问索引之前，务必检查列表的长度（if len(links_on_page) > 2:），以防止因链接数量不足而引发IndexError。
错误处理:
- 使用try-except块包裹urllib.request.urlopen()等可能引发网络或解析错误的函数调用。这有助于程序在遇到问题时（例如，URL无效、网络连接中断、页面结构异常）能够优雅地处理，而不是直接崩溃。

总结

通过本教程，我们学习了如何利用Python的urllib和BeautifulSoup库实现网页链接的迭代追踪。核心在于正确地管理循环变量current_url，确保它在每次迭代中都被更新为下一个目标页面的URL；同时，合理使用临时列表来存储和选择当前页面的链接，并利用urljoin处理链接的相对/绝对路径问题。掌握这些技巧，将使您能够构建更强大、更灵活的网页抓取和数据遍历程序。

html转docx格式网页文件怎么转word【文档】

html格式怎么转换成PDF_html转PDF工具与保存方法【推荐】

txt文本怎么改成html_txt转html文件方法【攻略】

怎么保存为html格式_保存为html格式方法【教程】

html文档怎么转换成word文档_html文档怎么转换成word格式【方法】

HTML速学教程(入门课程)

HTML怎么学习？HTML怎么入门？HTML在哪学？HTML怎么学才快？不用担心，这里为大家提供了HTML速学教程(入门课程)，有需要的小伙伴保存下载就能学习啦！

下载

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1948

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1168

2024.11.28

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

495

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

450

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3548

2024.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

2026.03.11

热门下载

网站特效

网站源码

网站素材

前端模板