使用Python的BeautifulSoup库可解析HTML和XML文档,常用于网页抓取。2. 需先安装并导入库:pip install beautifulsoup4 requests,再配合requests获取网页内容。3. 用BeautifulSoup(response.text, 'html.parser')创建解析对象。4. 提供find、find_all等方法按标签、id、class查找元素。5. 可提取链接、文本等数据,并通过点语法或children等方法处理层级结构。

使用 Python 中的 BeautifulSoup 库可以方便地解析 HTML 和 XML 文档,提取所需数据。它常用于网页抓取和数据提取任务。你需要先安装并导入库,然后配合请求库(如 requests)获取网页内容,再用 BeautifulSoup 解析。
安装与导入
在使用前,需通过 pip 安装相关库:
pip install beautifulsoup4 requests导入库:
from bs4 import BeautifulSoupimport requests
获取网页并解析
使用 requests 获取网页源码,再用 BeautifulSoup 创建解析对象:
立即学习“Python免费学习笔记(深入)”;
url = "https://example.com"response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
说明: 第二个参数指定解析器,'html.parser' 是内置的,推荐简单场景使用;也可用 'lxml' 提升性能(需额外安装 lxml)。
查找和提取数据
BeautifulSoup 提供多种方法定位标签:
- soup.find('tag'):返回第一个匹配的标签
- soup.find_all('tag'):返回所有匹配的标签列表
- soup.find(id='content'):通过 id 查找
- soup.find(class_='title'):通过 class 查找(注意下划线)
示例:提取所有链接
links = soup.find_all('a')for link in links:
print(link.get('href'))
处理层级结构
可通过点语法快速访问嵌套标签:
title = soup.titlediv_content = soup.div.p.text # 获取 div 下第一个 p 的文本
也可以用 .children、.find_parent() 等方法遍历结构。
基本上就这些,结合实际网页结构灵活使用即可。











