如何用Python从XML中提取所有链接

星降

发布时间：2025-12-23 09:12:08

299人浏览过

来源于php中文网

原创

推荐使用xml.etree.ElementTree提取href/src/url属性链接，或lxml配合XPath精准匹配多类链接位置；需清洗空格、补全相对路径、过滤非HTTP协议并处理命名空间。

如何用python从xml中提取所有链接

用Python从XML中提取所有链接，核心是解析XML文档并定位含URL的元素（如<a href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c">、<link href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c">、<url>https://https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c</url>等），再提取其属性值或文本内容。推荐使用内置的xml.etree.ElementTree（轻量、标准库、够用）或第三方库lxml（支持XPath、更灵活、解析HTML混合内容更强）。

用ElementTree提取href属性链接

适用于结构清晰、链接主要在href、src等属性中的XML（如RSS、自定义配置XML）：

加载XML：用ET.parse()读文件，或ET.fromstring()读字符串
查找所有带href属性的元素：用root.iter()遍历所有元素，检查elem.get("href")
同样可扩展检查src、url、xlink:href等常见链接属性

示例代码：

CreateWise AI

为播客创作者设计的AI创作工具，AI自动去口癖、提交亮点和生成Show notes、标题等

下载

import xml.etree.ElementTree as ET
<p>tree = ET.parse("example.xml")
root = tree.getroot()</p><p>links = []
for elem in root.iter():
href = elem.get("href") or elem.get("src") or elem.get("url")
if href and href.startswith(("http://", "https://")):
links.append(href)</p><p>print(links)

立即学习“Python免费学习笔记（深入）”；

用XPath配合lxml精准提取（推荐进阶场景）

当XML较复杂、需匹配命名空间、或要提取<loc>https://https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c</loc>这类文本型链接时，lxml + XPath更可靠：

安装：pip install lxml
用//a/@href | //link/@href | //url/text() | //loc/text()一次性匹配多类链接位置
自动处理命名空间（如Atom/RSS常用xmlns:xhtml="http://www.w3.org/1999/xhtml"）

示例代码：

from lxml import etree
<p>tree = etree.parse("feed.xml")</p><h1>提取所有href属性 + loc/url元素的文本</h1><p>expr = '//@href | //@src | //loc/text() | //url/text() | //xhtml:a/@href'
links = [link for link in tree.xpath(expr) if isinstance(link, str) and link.strip().startswith(("http://", "https://"))]</p><p>print(links)

立即学习“Python免费学习笔记（深入）”；

注意链接格式与清洗

提取出的链接常含空格、换行、相对路径或无效前缀，建议统一后处理：

用.strip()去首尾空白
用urllib.parse.urljoin(base_url, rel_path)补全相对链接（需提供XML文档所在基础URL）
过滤掉mailto:、tel:、javascript:等非HTTP链接（按需）
去重可用list(set(links))，但注意保持顺序时改用dict.fromkeys(links)

处理带命名空间的XML（如RSS 2.0、Atom）

很多标准XML定义了默认或前缀命名空间，直接用find("link")会失败。正确做法是声明命名空间字典：

ns = {
    "rss": "http://purl.org/rss/1.0/",
    "atom": "http://www.w3.org/2005/Atom",
    "dc": "http://purl.org/dc/elements/1.1/"
}
<h1>查找Atom中的 <atom:link rel="alternate" href="https://www.php.cn/link/263b1243ca2dbeb358777ceabc4a2e4c"/></h1><p>for link in root.xpath("//atom:link[@rel='alternate']/@href", namespaces=ns):
print(link)

不复杂但容易忽略。

XML文件能否包含脚本代码 SVG中的JavaScript执行风险

JavaScript中innerHTML怎么处理XML标签

如何在浏览器端使用JavaScript和XSLT进行转换

XML文件如何通过XSLT转HTML 浏览器端即时渲染XML

XML文件能包含JavaScript吗 SVG XML中嵌入脚本的安全风险

相关标签:

javascript python java html ai 标准库 xhtml pip 命名空间 xml 字符串 href http https atom

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：XPath轴是什么 XPath axes使用方法详解下一篇：C++怎么解析XML TinyXML2库使用教程

作者最新文章

C# UTF-8字符串字面量方法 C#如何使用u8后缀创建UTF-8常量

2026-03-13 11:07

XML文件行数限制编辑器打开几百万行XML卡死的解决

2026-03-13 11:09

Android inset标签用法 XML调整Drawable的内边距

2026-03-13 11:18

C# NTFS交接点(Junction) C#如何创建目录的Junction Point

2026-03-13 11:36

PS蒙版怎么做出渐隐效果？PS图片边缘透明渐变教程

2026-03-13 11:40

XSD如何定义一个非负整数 nonNegativeInteger

2026-03-13 11:53

C# 访问者模式实现方法 C#如何对对象结构中的元素进行操作

2026-03-13 12:14

C#获取文件修改时间 C#如何读取文件的创建和修改日期

2026-03-13 12:17

学习通怎么扫码签到手机远程扫码签到步骤【技巧】

2026-03-13 12:40

CAD看图王怎么转DXF CAD看图王导出DXF格式图纸教程【干货】

2026-03-13 12:57

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

437

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

803

2024.12.23