从动态网页抓取数据：TfL自行车数据抓取教程

花韻仙語

发布时间：2025-08-15 17:44:01

361人浏览过

来源于php中文网

原创

从动态网页抓取数据：tfl自行车数据抓取教程

本文介绍了如何从使用 JavaScript 动态加载数据的网页中抓取数据，以伦敦交通局 (TfL) 自行车数据为例。我们将演示如何通过分析浏览器的开发者工具来查找 API 请求，并使用 Python 和 BeautifulSoup 库解析 XML 响应，提取所需的数据文件 URL。本教程适用于初学者，并提供清晰的代码示例和步骤说明。

动态网页数据抓取：寻找隐藏的API

许多现代网站使用 JavaScript 动态加载数据。这意味着当你访问网页时，最初看到的可能只是一个框架，而实际的数据是在后台通过 API 请求加载的。直接使用 requests 和 BeautifulSoup 抓取网页内容通常只能获取到初始的 HTML 代码，而无法获取到动态加载的数据。

在这种情况下，我们需要分析网页的网络请求，找到加载数据的 API 接口。常用的方法是使用浏览器的开发者工具。

步骤如下：

打开目标网页（例如：https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d）。
打开浏览器的开发者工具（通常按 F12 键）。
切换到 "Network"（网络）选项卡。
刷新网页，观察网络请求。
筛选 "XHR" 或 "Fetch/XHR" 请求，查找包含数据的文件。

通过分析 TfL 自行车数据的网页，我们可以发现一个名为 https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500 的 API 请求，它返回一个 XML 文件，其中包含了所有数据文件的 URL。

使用 BeautifulSoup 解析 XML 数据

找到 API 接口后，我们可以使用 requests 获取 XML 数据，然后使用 BeautifulSoup 解析 XML，提取所需的数据文件 URL。

Glimmer Ai

基于GPT-3和DALL·E2的PPT制作工具

下载

以下是一个示例代码：

import requests
from bs4 import BeautifulSoup

soup=BeautifulSoup(requests.get('https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500').text, 'xml')
for c in soup.select('contents key'):
    if c.text.startswith('usage-stats') and c.text.endswith('.csv'):
        print('https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d'+c.text)

代码解释：

import requests: 导入 requests 库，用于发送 HTTP 请求。
from bs4 import BeautifulSoup: 导入 BeautifulSoup 库，用于解析 HTML 和 XML。
requests.get('https://s3-eu-west-1.amazonaws.com/cycling.data.tfl.gov.uk/?list-type=2&max-keys=1500').text: 发送 GET 请求到 API 接口，获取 XML 数据。
BeautifulSoup(..., 'xml'): 使用 BeautifulSoup 解析 XML 数据。注意这里需要指定解析器为 'xml'。
soup.select('contents key'): 使用 CSS 选择器 contents key 找到所有包含文件名的 XML 标签。
if c.text.startswith('usage-stats') and c.text.endswith('.csv'): 过滤文件名，只保留以 'usage-stats' 开头且以 '.csv' 结尾的文件。
print('https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577d'+c.text): 打印完整的 URL。

运行结果：

https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01aJourneyDataExtract10Jan16-23Jan16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01b Journey Data Extract 24Jan16-06Feb16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/01bJourneyDataExtract24Jan16-06Feb16.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/02aJourneyDataExtract07Fe16-20Feb2016.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/02bJourneyDataExtract21Feb16-05Mar2016.csv
https://www.php.cn/link/64ad8f3af92ef8d9a1c7dfd7265e577dusage-stats/03JourneyDataExtract06Mar2016-31Mar2016.csv
...

总结

本教程介绍了如何从动态网页中抓取数据，关键在于找到加载数据的 API 接口，并使用合适的工具解析返回的数据。对于 XML 数据，可以使用 BeautifulSoup 配合 'xml' 解析器进行解析。掌握这些技巧可以帮助你从各种复杂的网页中提取所需的数据。

注意事项：

在抓取数据时，请遵守网站的 robots.txt 协议，并尊重网站的服务条款。
频繁的抓取可能会给网站带来负担，请合理控制抓取频率。
如果网站的反爬虫机制比较严格，可能需要使用代理 IP、设置请求头等方法来规避反爬虫策略。

Docker 中 Headless Chrome 文本渲染失败的根源与解决方案

如何绕过 Cloudflare 防护成功抓取 Stylevana 网站商品数据

如何使用 Selenium 动态定位并点击含日期的下载链接

如何正确选择并点击网页中动态生成的多个链接元素

如何使用 Selenium 精准定位并点击动态下拉列表中的选项

相关标签:

css python 浏览器工具 beautifulsoup print if select xml 接口选择器 http https

本站声明：本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系admin@php.cn

上一篇：使用Python爬取动态加载的CSV数据：TfL自行车数据案例下一篇：Web Scraping动态加载数据：TFL自行车数据抓取教程

作者最新文章

如何精准裁剪 div 以精确覆盖图像区域

2026-03-12 15:29

vscode怎么选中同一个标签

2026-03-12 15:36

Laravel Blade 组件中图片路径失效的根源与正确解决方案

2026-03-12 15:43

如何在 Windows 上实现文件独占锁（Go 语言兼容方案）

2026-03-12 16:13

Laravel Blade 组件中图片路径失效的根源与解决方案

2026-03-12 16:24

《宿命残响》德国开发者起诉发行商不作为 M站91分JRPG

2026-03-12 16:35

如何基于子字符串去重数组中的字符串元素

2026-03-12 16:39

JavaScript 中数组与 TypedArray 的内存分配机制解析

2026-03-12 16:55

PHP 中动态变量名的正确用法：避免 $$ 误用与数组赋值陷阱

2026-03-12 17:13

《狼人：内在野兽》Steam版5月6日发售性感女主上阵

2026-03-12 17:31

热门AI工具

DeepSeek

幻方量化公司旗下的开源大模型平台

AI编程开发 AI聊天问答

豆包大模型

字节跳动自主研发的一系列大型语言模型

AI编程开发 AI大模型

WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

AI办公学习 Agent智能体

腾讯元宝

腾讯混元平台推出的AI助手

文档处理 Excel 表格

文心一言

文心一言是百度开发的AI聊天机器人，通过对话可以生成各种形式的内容。

AI编程开发 AI文本写作

讯飞写作

基于讯飞星火大模型的AI写作工具，可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

AI文本写作中文写作

即梦AI

一站式AI创作平台，免费AI图片和视频生成。

图片拼接图画生成

ChatGPT

最最强大的AI聊天机器人程序，ChatGPT不单是聊天机器人，还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

AI编程开发 AI文本写作

智谱清言 - 免费全能的AI助手

AI编程开发 Agent智能体

相关专题

Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据，或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

python中print函数的用法

python中print函数的语法是“print(value1, value2, ..., sep=' ', end=' ', file=sys.stdout, flush=False)”。本专题为大家提供print相关的文章、下载、课程内容，供大家免费下载体验。

193

2023.09.27

python print用法与作用

本专题整合了python print的用法、作用、函数功能相关内容，阅读专题下面的文章了解更多详细教程。

2026.02.03

if什么意思

if的意思是“如果”的条件。它是一个用于引导条件语句的关键词，用于根据特定条件的真假情况来执行不同的代码块。本专题提供if什么意思的相关文章，供大家免费阅读。

847

2023.08.22

pdf怎么转换成xml格式

将 pdf 转换为 xml 的方法：1. 使用在线转换器；2. 使用桌面软件（如 adobe acrobat、itext）；3. 使用命令行工具（如 pdftoxml）。本专题为大家提供相关的文章、下载、课程内容，供大家免费下载体验。

1948

2024.04.01

xml怎么变成word

步骤：1. 导入 xml 文件；2. 选择 xml 结构；3. 映射 xml 元素到 word 元素；4. 生成 word 文档。提示：确保 xml 文件结构良好，并预览 word 文档以验证转换是否成功。想了解更多xml的相关内容，可以阅读本专题下面的文章。

2119

2024.08.01

xml是什么格式的文件

xml是一种纯文本格式的文件。xml指的是可扩展标记语言，标准通用标记语言的子集，是一种用于标记电子文件使其具有结构性的标记语言。想了解更多相关的内容，可阅读本专题下面的相关文章。

1171

2024.11.28

硬盘接口类型介绍

硬盘接口类型有IDE、SATA、SCSI、Fibre Channel、USB、eSATA、mSATA、PCIe等等。详细介绍：1、IDE接口是一种并行接口，主要用于连接硬盘和光驱等设备，它主要有两种类型：ATA和ATAPI，IDE接口已经逐渐被SATA接口；2、SATA接口是一种串行接口，相较于IDE接口，它具有更高的传输速度、更低的功耗和更小的体积；3、SCSI接口等等。

1946

2023.10.19

Python异步编程与Asyncio高并发应用实践

本专题围绕 Python 异步编程模型展开，深入讲解 Asyncio 框架的核心原理与应用实践。内容包括事件循环机制、协程任务调度、异步 IO 处理以及并发任务管理策略。通过构建高并发网络请求与异步数据处理案例，帮助开发者掌握 Python 在高并发场景中的高效开发方法，并提升系统资源利用率与整体运行性能。

2026.03.12

热门下载

网站特效

网站源码

网站素材

前端模板