如何使用 Beautiful Soup 从公共网络中提取数据

PHPz

发布时间：2024-08-01 20:22:32

974人浏览过

来源于dev.to

转载

如何使用 beautiful soup 从公共网络中提取数据

beautiful soup 是一个用于从网页中抓取数据的 python 库。它创建用于解析 html 和 xml 文档的解析树，从而可以轻松提取所需的信息。

beautiful soup 为网页抓取提供了几个关键功能：

导航解析树：您可以轻松导航解析树并搜索元素、标签和属性。
修改解析树： 它允许您修改解析树，包括添加、删除和更新标签和属性。
输出格式： 可以将解析树转换回字符串，方便保存修改的内容。

要使用 beautiful soup，您需要安装该库以及解析器，例如 lxml 或 html.parser。您可以使用 pip 安装它们

#install beautiful soup using pip.
pip install beautifulsoup4 lxml

处理分页

在处理跨多个页面显示内容的网站时，处理分页对于抓取所有数据至关重要。

识别分页结构：检查网站以了解分页的结构（例如下一页按钮或编号链接）。
迭代页面： 使用循环迭代每个页面并抓取数据。
更新url或参数：修改url或参数以获取下一页的内容。

import requests
from bs4 import beautifulsoup

base_url = 'https://example-blog.com/page/'
page_number = 1
all_titles = []

while true:
    # construct the url for the current page
    url = f'{base_url}{page_number}'
    response = requests.get(url)
    soup = beautifulsoup(response.content, 'html.parser')

    # find all article titles on the current page
    titles = soup.find_all('h2', class_='article-title')
    if not titles:
        break  # exit the loop if no titles are found (end of pagination)

    # extract and store the titles
    for title in titles:
        all_titles.append(title.get_text())

    # move to the next page
    page_number += 1

# print all collected titles
for title in all_titles:
    print(title)

提取嵌套数据

有时，您需要提取的数据嵌套在多层标签中。以下是如何处理嵌套数据提取。

Otter.ai

一个自动的会议记录和笔记工具，会议内容生成和实时转录

下载

导航到父标签： 查找包含嵌套数据的父标签。
提取嵌套标签：在每个父标签中，查找并提取嵌套标签。
迭代嵌套标签：迭代嵌套标签以提取所需的信息。

import requests
from bs4 import beautifulsoup

url = 'https://example-blog.com/post/123'
response = requests.get(url)
soup = beautifulsoup(response.content, 'html.parser')

# find the comments section
comments_section = soup.find('div', class_='comments')

# extract individual comments
comments = comments_section.find_all('div', class_='comment')

for comment in comments:
    # extract author and content from each comment
    author = comment.find('span', class_='author').get_text()
    content = comment.find('p', class_='content').get_text()
    print(f'author: {author}\ncontent: {content}\n')

处理 ajax 请求

许多现代网站使用 ajax 动态加载数据。处理 ajax 需要不同的技术，例如使用浏览器开发人员工具监视网络请求并在抓取工具中复制这些请求。

import requests
from bs4 import BeautifulSoup

# URL to the API endpoint providing the AJAX data
ajax_url = 'https://example.com/api/data?page=1'
response = requests.get(ajax_url)
data = response.json()

# Extract and print data from the JSON response
for item in data['results']:
    print(item['field1'], item['field2'])

网页抓取的风险

网络抓取需要仔细考虑法律、技术和道德风险。通过实施适当的保护措施，您可以减轻这些风险并负责任且有效地进行网络抓取。

违反服务条款：许多网站在其服务条款 (tos) 中明确禁止抓取。违反这些条款可能会导致法律诉讼。
知识产权问题：未经许可抓取内容可能会侵犯知识产权，导致法律纠纷。
ip 阻止：网站可能会检测并阻止表现出抓取行为的 ip 地址。
账号封禁：如果在需要用户身份验证的网站上进行抓取，用于抓取的账号可能会被封禁。

beautiful soup 是一个功能强大的库，它通过提供易于使用的界面来导航和搜索 html 和 xml 文档，从而简化了网页抓取的过程。它可以处理各种解析任务，使其成为任何想要从网络中提取数据的人的必备工具。

Python如何操作剪贴板图片_读取系统剪贴板内图片数据并自动重命名保存本地

Python怎么读配置文件_configparser解析ini环境配置全教程

Python pathlib怎么用_面向对象路径操作库Path使用详解

Python面试算法常见题型_数据结构应用

Python怎么计算经纬度距离_GeoDjango或数学库实现附近的人

相关标签:

python ajax pip xml 字符串循环

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：Python 中使用 NLTK 进行单词替换和更正下一篇：软件开发的坚实原则

作者最新文章

如何高效生成订单/发票号？SprykerSequenceNumber模块助你轻松搞定

2025-09-16 10:01

如何解决电商平台商品属性管理混乱的问题，使用SprykerProductAttribute模块助你实现灵活高效的数据管理

2025-09-16 12:23

解锁夸克浏览器AI搜索新功能_掌握夸克AI搜索的进阶玩法

2025-10-13 17:08

升级夸克浏览器体验AI搜索_夸克AI搜索核心功能深度解析

2025-10-28 20:58

微信朋友圈能不能定时发微信朋友圈定时发送辅助工具使用

2026-01-11 08:41

企业微信朋友圈怎么定时发送企业微信定时发布朋友圈教程

2026-01-19 01:11

微信朋友圈怎么预约发送微信朋友圈定时发布最新解决方案

2026-02-09 10:52

mysql如何进行逻辑运算_mysql and/or/not组合

2026-03-06 10:26

mysql如何使用位运算符_mysql二进制数据处理

2026-03-07 02:17

mysql如何查看库中所有表_mysql show tables语法

2026-03-13 08:00

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

ajax教程

php中文网为大家带来ajax教程合集，Ajax是一种用于创建快速动态网页的技术。通过在后台与服务器进行少量数据交换，Ajax可以使网页实现异步更新。这意味着可以在不重新加载整个网页的情况下，对网页的某部分进行更新。php中文网还为大家带来ajax的相关下载资源、相关课程以及相关文章等内容，供大家免费下载使用。

166

2023.06.14

ajax中文乱码解决方法

ajax中文乱码解决方法有设置请求头部的字符编码、在服务器端设置响应头部的字符编码和使用encodeURIComponent对中文进行编码。本专题为大家提供ajax中文乱码相关的文章、下载、课程内容，供大家免费下载体验。

170

2023.08.31

ajax传递中文乱码怎么办

ajax传递中文乱码的解决办法：1、设置统一的编码方式；2、服务器端编码；3、客户端解码；4、设置HTTP响应头；5、使用JSON格式。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

124

2023.11.15

ajax网站有哪些

使用ajax的网站有谷歌、维基百科、脸书、纽约时报、亚马逊、stackoverflow、twitter、hacker news、shopify和basecamp等。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

260

2024.09.24

pip安装使用方法

安装步骤：1、确保Python已经正确安装在您的计算机上；2、下载“get-pip.py”脚本；3、按下Win + R键，然后输入cmd并按下Enter键来打开命令行窗口；4、在命令行窗口中，使用cd命令切换到“get-pip.py”所在的目录；5、执行安装命令；6、验证安装结果即可。大家可以访问本专题下的文章，了解pip安装使用方法的更多内容。

373

2023.10.09

更新pip版本

更新pip版本方法有使用pip自身更新、使用操作系统自带的包管理工具、使用python包管理工具、手动安装最新版本。想了解更多相关的内容，请阅读专题下面的文章。

437

2024.12.20

pip设置清华源

设置方法：1、打开终端或命令提示符窗口；2、运行“touch ~/.pip/pip.conf”命令创建一个名为pip的配置文件；3、打开pip.conf文件，然后添加“[global];index-url = https://pypi.tuna.tsinghua.edu.cn/simple”内容，这将把pip的镜像源设置为清华大学的镜像源；4、保存并关闭文件即可。

803

2024.12.23