如何使用 Python 逐行读取 URL 列表并逐一解析网页内容

碧海醫心

发布时间：2026-01-17 13:45:36

201人浏览过

来源于php中文网

原创

如何使用 Python 逐行读取 URL 列表并逐一解析网页内容

本文详解如何修正 readlines() 后仅处理最后一个 url 的常见错误，通过正确缩进将请求与解析逻辑置于循环体内，实现对文本文件中每个 url 的独立抓取、解析与结果写入。

在使用 file.readlines() 读取 URL 列表时，一个典型误区是：将 requests.get()、BeautifulSoup 解析及文件写入等核心逻辑写在 for 循环外部——这会导致只有最后一次迭代赋值的 url（即列表末尾的 URL）被实际处理，其余 URL 被完全忽略。

正确做法是：将整个 HTTP 请求、状态校验、HTML 解析与数据提取流程完整包裹在 for link in linksList: 循环内部，确保每条 URL 都经历一次完整的处理流水线。

以下是修正后的完整可运行代码（含关键优化）：

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全读取 URL 文件（自动关闭）
    with open('list.txt', 'r', encoding='utf-8') as f:
        links_list = [line.strip() for line in f if line.strip()]  # 去除换行符和空行

    # 逐个处理每个 URL
    for link in links_list:
        try:
            print(f"Processing: {link}")
            resp = requests.get(link, timeout=10)

            if resp.status_code == 200:
                soup = BeautifulSoup(resp.text, 'html.parser')
                # 定位目标容器（注意：若该 div 不存在，find 返回 None）
                container = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})

                if container:
                    # 提取所有 <a> 标签的文本内容
                    websites = [a.get_text(strip=True) for a in container.find_all("a")]
                    # 追加写入结果文件（同样推荐用 with 管理）
                    with open("Websites.txt", "a", encoding="utf-8") as out_f:
                        for site in websites:
                            out_f.write(site + "\n")
                    print(f"✓ Extracted {len(websites)} website(s) from {link}")
                else:
                    print(f"⚠ Warning: Target container not found on {link}")
            else:
                print(f"✗ Failed to fetch {link}: HTTP {resp.status_code}")

        except requests.exceptions.RequestException as e:
            print(f"❌ Request error for {link}: {e}")
        except Exception as e:
            print(f"❌ Unexpected error parsing {link}: {e}")

        # 可选：添加短暂停顿，避免对服务器造成压力
        # time.sleep(1)

if __name__ == "__main__":
    news()

✅ 关键改进说明：

歌者PPT

歌者PPT，AI 写 PPT 永久免费

下载

立即学习“Python免费学习笔记（深入）”；

循环作用域正确：所有网络请求与解析逻辑均位于 for 内部，确保每条 URL 独立处理；
健壮性增强：加入 try/except 捕获网络异常与解析异常，防止单个失败中断整个流程；
资源安全：使用 with open(...) 替代裸 open()，避免文件句柄泄露；
数据清洗：line.strip() 清除换行符与首尾空格，if line.strip() 过滤空行；
容错提示：当目标 HTML 结构缺失时给出明确警告，而非抛出 AttributeError；
可维护性：添加日志输出，便于调试与监控进度。

⚠️ 注意事项：

确保 list.txt 中每行仅包含一个有效 URL（无多余空格或注释）；
目标网站可能有反爬机制，建议设置 headers（如 User-Agent）并遵守 robots.txt；
若需高并发，应改用 asyncio + aiohttp，但需重写架构；本例为顺序执行，简洁可靠。

通过以上重构，你的爬虫即可稳定、清晰地遍历全部 URL，并将每个页面中匹配的网站链接逐行写入 Websites.txt。

如何在临时目录中正确创建并确保文件存在

Python 手写 SHA-1 算法实现常见错误解析与正确填充方案

SHA1 实现差异的根源：消息填充长度计算错误

Python Task怎么创建_asyncio.create_task()将协程包装为任务加入事件循环调度

Python poetry怎么用_Poetry依赖管理工具安装与初始化

相关标签:

python html ai 爬虫数据清洗作用域架构 beautifulsoup if for try 循环并发作用域 http 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：如何修复Python中列表append后为空的问题？下一篇：解析 Python 类型字符串以提取泛型参数（如 Tuple 中的子类型）

作者最新文章

《宝可梦 Pokopia》简评：温暖人心的慢生活

2026-03-12 13:57

JTable 显示 CSV 数据时仅显示首列的完整解决方案

2026-03-12 13:57

如何在 Spring 中正确注入和使用抽象类的子类 Bean

2026-03-12 14:07

高德地图路线规划耗时过长怎么办

2026-03-12 14:07

阿里旺旺网页版登录入口在哪

2026-03-12 14:18

高效求解轮盘弹跳路径：基于循环检测的 O(n) 时间复杂度优化方案

2026-03-12 14:19

破次元恋人app如何注销

2026-03-12 14:25

App Engine Datastore 中基于游标的分页查询最佳实践

2026-03-12 14:37

如何高效地对字典列表进行排序（Python 教程）

2026-03-12 14:49

怪物乐土巨魔在哪里抓怪物乐土巨魔位置

2026-03-12 15:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

496

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

450

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3582

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2915

2024.08.16

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

136

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板