如何使用 Python 逐行读取 URL 列表并依次解析每个网页内容

碧海醫心

发布时间：2026-01-17 15:22:01

781人浏览过

来源于php中文网

原创

如何使用 Python 逐行读取 URL 列表并依次解析每个网页内容

本文详解如何修正 readlines() 循环逻辑错误，确保 python 脚本对文本文件中每一行 url 都执行独立的 http 请求与 html 解析，避免仅处理最后一行的问题。

你的原始代码中存在一个典型的缩进与作用域错误：for link in linksList: 循环体仅包含 url = link 这一行，后续所有网络请求、解析和写入操作均位于循环外部。因此，url 变量在循环结束后只保留最后一个值，最终仅对该 URL 执行了一次处理。

要实现“逐个解析每个 URL”，必须将整个请求-解析-保存流程完整包裹在 for 循环内。以下是优化后的完整实现（含关键改进说明）：

无限画

千库网旗下AI绘画创作平台

下载

✅ 正确结构：循环内完成全流程

import requests
from bs4 import BeautifulSoup

def news():
    # 使用 with 语句安全读取文件（自动关闭）
    with open('list.txt', 'r') as links_file:
        links_list = links_file.readlines()

    # 对每个 URL 执行独立处理
    for link in links_list:
        link = link.strip()  # 去除换行符和首尾空格，避免请求失败
        if not link:  # 跳过空行
            continue

        print(f"Processing: {link}")

        try:
            resp = requests.get(link, timeout=10)
            resp.raise_for_status()  # 抛出非200状态异常

            soup = BeautifulSoup(resp.text, 'html.parser')
            target_div = soup.find("div", {"class": "m-exhibitor-entry__item__body__contacts__additional__website"})

            if target_div:
                # 提取所有 <a> 标签的文本内容
                with open("Websites.txt", "a", encoding="utf-8") as f:
                    for anchor in target_div.find_all("a"):
                        f.write(anchor.get_text(strip=True) + "\n")
                print(f"✓ Extracted from {link}")
            else:
                print(f"⚠ Warning: Target div not found on {link}")

        except requests.exceptions.RequestException as e:
            print(f"✗ Failed to fetch {link}: {e}")
        except Exception as e:
            print(f"✗ Error parsing {link}: {e}")

if __name__ == "__main__":
    news()

? 关键改进点：

缩进修复：全部网络请求、解析、写入逻辑均置于 for 循环内部，确保每轮迭代独立处理一个 URL；
健壮性增强：
- link.strip() 清除 \n 和空格，防止 requests.get("https://...\n") 报错；
- try/except 捕获网络异常（超时、连接拒绝等）和解析异常；
- resp.raise_for_status() 主动检查 HTTP 错误状态；
- 空行跳过与目标元素存在性校验，避免 AttributeError；
资源管理优化：
- 使用 with open(...) 替代手动 open/close，防止文件句柄泄露；
- 每次写入前重新打开文件（"a" 模式），或更推荐：一次性打开写入流（见下方进阶建议）；
编码声明：encoding="utf-8" 避免中文等特殊字符写入乱码。

⚠ 注意事项：

list.txt 中每行应为一个有效 URL（如 https://www.enlit-europe.com/exhibitors/precept），无需额外符号；
目标网站可能有反爬机制，若频繁请求被拒，请添加 time.sleep(1) 或设置 headers（如 'User-Agent'）；
若需提升性能，可考虑使用 concurrent.futures.ThreadPoolExecutor 并发请求（注意遵守 robots.txt 及服务条款）。

通过以上重构，你的脚本将真正实现「逐一解析列表中每个 URL」的目标，并具备生产环境所需的稳定性与可维护性。

Python 的 copyreg 模块完全支持用户自定义类的序列化定制

Pyomo调试指南：修复因无序集合导致的约束逻辑错误

SHA1 实现与内置 hashlib 结果不一致的调试与修复指南

如何判断字符是否属于指定编码页（Code Page）

如何判断字符是否属于指定编码页

相关标签:

python html 编码 ai 作用域并发请求 for try 循环并发作用域 http https 重构

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 如何让@dataclass自动生成比较方法但忽略某些字段下一篇：如何在 pyzipcode 中安全处理无效邮编并忽略查找错误

作者最新文章

《宝可梦 Pokopia》简评：温暖人心的慢生活

2026-03-12 13:57

JTable 显示 CSV 数据时仅显示首列的完整解决方案

2026-03-12 13:57

如何在 Spring 中正确注入和使用抽象类的子类 Bean

2026-03-12 14:07

高德地图路线规划耗时过长怎么办

2026-03-12 14:07

阿里旺旺网页版登录入口在哪

2026-03-12 14:18

高效求解轮盘弹跳路径：基于循环检测的 O(n) 时间复杂度优化方案

2026-03-12 14:19

破次元恋人app如何注销

2026-03-12 14:25

App Engine Datastore 中基于游标的分页查询最佳实践

2026-03-12 14:37

如何高效地对字典列表进行排序（Python 教程）

2026-03-12 14:49

怪物乐土巨魔在哪里抓怪物乐土巨魔位置

2026-03-12 15:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

http500解决方法

http500解决方法有检查服务器日志、检查代码错误、检查服务器配置、检查文件和目录权限、检查资源不足、更新软件版本、重启服务器或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

496

2023.11.09

http请求415错误怎么解决

解决方法：1、检查请求头中的Content-Type；2、检查请求体中的数据格式；3、使用适当的编码格式；4、使用适当的请求方法；5、检查服务器端的支持情况。更多http请求415错误怎么解决的相关内容，可以阅读下面的文章。

452

2023.11.14

HTTP 503错误解决方法

HTTP 503错误表示服务器暂时无法处理请求。想了解更多http错误代码的相关内容，可以阅读本专题下面的文章。

3594

2024.03.12

http与https有哪些区别

http与https的区别：1、协议安全性；2、连接方式；3、证书管理；4、连接状态；5、端口号；6、资源消耗；7、兼容性。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

2916

2024.08.16

http与https有哪些区别

2916

2024.08.16

TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开，深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析，帮助开发者构建类型安全、结构清晰、易维护的前端工程体系，提高团队协作效率与代码质量。

2026.03.13

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

C# ASP.NET Core微服务架构与API网关实践

本专题围绕 C# 在现代后端架构中的微服务实践展开，系统讲解基于 ASP.NET Core 构建可扩展服务体系的核心方法。内容涵盖服务拆分策略、RESTful API 设计、服务间通信、API 网关统一入口管理以及服务治理机制。通过真实项目案例，帮助开发者掌握构建高可用微服务系统的关键技术，提高系统的可扩展性与维护效率。

174

2026.03.11

Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开，系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示，帮助开发者构建稳定高效的 Go 并发任务处理系统，提高系统在高负载环境下的处理能力与稳定性。

2026.03.10

热门下载

网站特效

网站源码

网站素材

前端模板