0

0

Python教程:使用API高效抓取GBGB赛狗结果数据(指定日期与赛道)

碧海醫心

碧海醫心

发布时间:2025-12-04 11:53:02

|

779人浏览过

|

来源于php中文网

原创

Python教程:使用API高效抓取GBGB赛狗结果数据(指定日期与赛道)

本教程详细介绍了如何使用python通过gbgb官方api,高效地抓取指定日期范围内特定赛狗赛道的比赛结果。文章涵盖了api请求参数的动态构建、日期范围的迭代生成、json数据解析、特定赛道数据的筛选以及健壮的错误处理机制,最终将抓取到的数据保存为json文件,旨在提供一个自动化且可扩展的数据获取方案。

引言:自动化数据抓取的必要性

在进行数据分析或建立自动化系统时,从网站获取大量结构化数据是一项常见任务。对于GBGB(Great British Greyhound Board)的赛狗比赛结果,手动通过网页或硬编码特定比赛ID的方式效率低下且难以扩展。GBGB提供了一个API接口,允许开发者通过结构化的HTTP请求获取数据。本教程将指导您如何利用Python及其requests库,结合API的参数特性,实现对指定日期范围和特定赛道比赛结果的自动化抓取。

理解GBGB API接口

GBGB提供了一个结果查询API,其基础URL为 https://api.gbgb.org.uk/api/results。此API支持通过查询参数来筛选数据,常见的参数包括:

  • page: 页码,用于分页。
  • itemsPerPage: 每页返回的条目数。
  • date: 查询的具体日期,格式为 YYYY-MM-DD。
  • race_type: 比赛类型,例如 race。

通过动态修改这些参数,我们可以构建灵活的数据抓取逻辑。

构建动态日期范围

手动输入每个日期的URL显然不可行。Python的datetime模块可以帮助我们轻松生成一个日期序列。为了覆盖一个月的每一天,我们需要一个双层循环:外层循环遍历月份,内层循环遍历该月份的每一天。

立即学习Python免费学习笔记(深入)”;

from datetime import datetime, timedelta
import requests
import json

# 定义数据存储列表
json_list = []

# API基础URL和固定参数
base_url = "https://api.gbgb.org.uk/api/results"
params = {
    'page': '1',
    'itemsPerPage': '200', # 假设每页最多200条,可根据实际情况调整
    'race_type': 'race'
}

# 定义抓取数据的年份和日期范围
year_to_scrape = 2023
start_month = 10
end_month = 12 # 包含结束月份

for month in range(start_month, end_month + 1):
    # 计算当前月份的天数
    # 简化处理,不考虑闰年,2月固定28天
    if month == 2:
        get_days_in_month = 28
    elif month in [4, 6, 9, 11]:
        get_days_in_month = 30
    else:
        get_days_in_month = 31

    for day in range(1, get_days_in_month + 1):
        # 格式化日期为 YYYY-MM-DD
        # 使用 f-string 的 :02d 格式化保证月份和日期始终是两位数
        params['date'] = f'{year_to_scrape}-{month:02d}-{day:02d}'
        # ... 后续进行API请求

注意事项:

  • 上述代码将年份硬编码为 2023。在实际应用中,您可以将其作为变量,甚至从用户输入获取,以提高灵活性。
  • 月份天数的计算是一个简化版本,未考虑闰年对2月份的影响。对于生产级应用,建议使用calendar模块或更精确的日期计算方法。
  • itemsPerPage参数决定了单次请求返回的最大条目数。如果某天的比赛结果超过此限制,您可能需要实现分页逻辑(即增加page参数并循环请求,直到没有更多数据)。

发送API请求与数据解析

生成日期参数后,下一步是使用requests库向API发送GET请求,并解析返回的JSON数据。

ChatMind
ChatMind

ChatMind是一款AI生成思维导图的效率工具,可以通过AI对话生成和编辑思维导图。

下载
        try:
            # 使用requests发送GET请求
            response = requests.get(base_url, params=params)
            response.raise_for_status()  # 检查HTTP请求是否成功 (200 OK)

            # 将响应转换为Python字典
            page_context_dict = response.json()
            items = page_context_dict.get('items', []) # 获取'items'列表,若不存在则为空列表

            # ... 后续进行数据筛选
        except requests.exceptions.HTTPError as errh:
            print(f"HTTP Error for date {params['date']}: {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"Error Connecting for date {params['date']}: {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"Timeout Error for date {params['date']}: {errt}")
        except requests.exceptions.RequestException as err:
            print(f"Oops: Something Else for date {params['date']}: {err}")
        except json.JSONDecodeError as json_err:
            print(f"JSON Decode Error for date {params['date']}: {json_err}")

错误处理: 在进行网络请求时,务必包含错误处理机制。try-except块能够捕获各种潜在问题,如网络连接错误、HTTP状态码错误(如404、500)以及JSON解析错误,从而使程序更加健壮。response.raise_for_status()是一个便捷的方法,它会在HTTP请求返回非200状态码时抛出HTTPError异常。

筛选特定赛道数据

API返回的数据通常包含多个赛道的信息。如果只需要特定赛道的数据,我们需要在解析JSON后进行筛选。API响应中的每个比赛结果对象通常包含一个trackName字段。

            specific_track_items = []
            desired_track = "Swindon" # 指定您想要抓取的赛道名称

            for item in items:
                # 检查'trackName'是否存在且与目标赛道匹配
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            # 将筛选后的数据添加到总列表中
            json_list.extend(specific_track_items)

注意事项:

  • desired_track变量应设置为您希望筛选的赛道名称,确保大小写和拼写与API返回的数据完全一致。
  • get('items', [])的使用是为了防止API响应中缺少items键时程序崩溃。

完整代码示例

将上述所有部分整合,形成一个完整的Python脚本:

import requests
import json
from datetime import datetime, timedelta
import calendar # 用于更精确地获取月份天数

json_list = []

base_url = "https://api.gbgb.org.uk/api/results"
params = {
    'page': '1',
    'itemsPerPage': '200', # 可根据API限制和需求调整
    'race_type': 'race'
}

# --- 配置抓取参数 ---
year_to_scrape = 2023
start_month = 10
end_month = 12 # 包含结束月份
desired_track = "Swindon" # 替换为您想要抓取的赛道名称
output_filename = 'gbgb_results_swindon.json' # 输出文件名

print(f"开始抓取 {year_to_scrape} 年 {start_month} 月到 {end_month} 月,赛道:{desired_track} 的数据...")

for month in range(start_month, end_month + 1):
    # 使用calendar模块获取指定月份的天数,考虑闰年
    num_days_in_month = calendar.monthrange(year_to_scrape, month)[1]

    for day in range(1, num_days_in_month + 1):
        # 格式化日期字符串
        params['date'] = f'{year_to_scrape}-{month:02d}-{day:02d}'
        print(f"正在请求数据:{params['date']}")

        try:
            response = requests.get(base_url, params=params)
            response.raise_for_status()

            page_context_dict = response.json()
            items = page_context_dict.get('items', [])

            specific_track_items = []
            for item in items:
                if "trackName" in item and item["trackName"] == desired_track:
                    specific_track_items.append(item)

            if specific_track_items:
                json_list.extend(specific_track_items)
                print(f"  - 成功抓取到 {len(specific_track_items)} 条 {desired_track} 赛道数据。")
            else:
                print(f"  - {desired_track} 赛道在 {params['date']} 没有数据或数据为空。")

        except requests.exceptions.HTTPError as errh:
            print(f"  - HTTP Error for date {params['date']}: {errh}")
        except requests.exceptions.ConnectionError as errc:
            print(f"  - Error Connecting for date {params['date']}: {errc}")
        except requests.exceptions.Timeout as errt:
            print(f"  - Timeout Error for date {params['date']}: {errt}")
        except requests.exceptions.RequestException as err:
            print(f"  - Oops: Something Else for date {params['date']}: {err}")
        except json.JSONDecodeError as json_err:
            print(f"  - JSON Decode Error for date {params['date']}: {json_err}")

# 将所有抓取到的数据写入JSON文件
if json_list:
    with open(output_filename, 'w', encoding='utf-8') as f:
        json.dump(json_list, f, ensure_ascii=False, indent=4)
    print(f"\n数据抓取完成!共抓取到 {len(json_list)} 条数据,已保存至 {output_filename}")
else:
    print("\n没有抓取到任何数据。请检查日期范围、赛道名称或API连接。")

总结与注意事项

通过本教程,您已经学会了如何利用Python和GBGB API高效地抓取特定日期范围和赛道的数据。这种方法相比手动抓取具有显著的效率和可扩展性优势。

进一步的改进和注意事项:

  1. API速率限制: 大多数API都有请求速率限制。频繁或大量的请求可能会导致IP被暂时封禁。在实际应用中,考虑在请求之间添加短暂的延迟(例如使用time.sleep())。
  2. 分页处理: 如果itemsPerPage不足以覆盖某一天所有比赛结果,您需要实现分页逻辑。这意味着在每次请求后检查是否有更多页的数据,并循环请求直到所有页都被抓取。
  3. 动态年份: 当前代码硬编码了年份。您可以修改代码以支持动态年份输入或抓取多年数据。
  4. 数据存储格式: 本教程将数据保存为JSON格式。根据您的需求,也可以将其存储到CSV文件、数据库(如SQLite、PostgreSQL)或其他数据结构中。
  5. 代理IP: 如果遇到IP封禁问题,可以考虑使用代理IP池来轮换请求IP。
  6. 错误重试机制: 对于临时的网络错误或API服务器问题,可以实现简单的重试逻辑,而不是立即失败。

通过遵循这些指导原则,您可以构建一个稳定、高效的Python脚本,用于从GBGB API获取所需的赛狗比赛数据。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

454

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

546

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

334

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

java中calendar类的用法
java中calendar类的用法

Java Video类是JavaFX库中的一个类,用于创建和操作视频对象。它提供了方法来加载、播放、暂停、停止和控制视频的音量、速度和循环等属性。想了解更多Java中类的相关内容,可以阅读本专题下面的文章。

325

2024.02.29

treenode的用法
treenode的用法

​在计算机编程领域,TreeNode是一种常见的数据结构,通常用于构建树形结构。在不同的编程语言中,TreeNode可能有不同的实现方式和用法,通常用于表示树的节点信息。更多关于treenode相关问题详情请看本专题下面的文章。php中文网欢迎大家前来学习。

548

2023.12.01

C++ 高效算法与数据结构
C++ 高效算法与数据结构

本专题讲解 C++ 中常用算法与数据结构的实现与优化,涵盖排序算法(快速排序、归并排序)、查找算法、图算法、动态规划、贪心算法等,并结合实际案例分析如何选择最优算法来提高程序效率。通过深入理解数据结构(链表、树、堆、哈希表等),帮助开发者提升 在复杂应用中的算法设计与性能优化能力。

30

2025.12.22

深入理解算法:高效算法与数据结构专题
深入理解算法:高效算法与数据结构专题

本专题专注于算法与数据结构的核心概念,适合想深入理解并提升编程能力的开发者。专题内容包括常见数据结构的实现与应用,如数组、链表、栈、队列、哈希表、树、图等;以及高效的排序算法、搜索算法、动态规划等经典算法。通过详细的讲解与复杂度分析,帮助开发者不仅能熟练运用这些基础知识,还能在实际编程中优化性能,提高代码的执行效率。本专题适合准备面试的开发者,也适合希望提高算法思维的编程爱好者。

44

2026.01.06

Go高并发任务调度与Goroutine池化实践
Go高并发任务调度与Goroutine池化实践

本专题围绕 Go 语言在高并发任务处理场景中的实践展开,系统讲解 Goroutine 调度模型、Channel 通信机制以及并发控制策略。内容包括任务队列设计、Goroutine 池化管理、资源限制控制以及并发任务的性能优化方法。通过实际案例演示,帮助开发者构建稳定高效的 Go 并发任务处理系统,提高系统在高负载环境下的处理能力与稳定性。

4

2026.03.10

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.5万人学习

Django 教程
Django 教程

共28课时 | 4.9万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.9万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号