0

0

Python爬取Yahoo Finance财报数据:API调用实践指南

霞舞

霞舞

发布时间:2025-11-09 08:42:12

|

546人浏览过

|

来源于php中文网

原创

Python爬取Yahoo Finance财报数据:API调用实践指南

本教程详细介绍了如何通过直接调用yahoo finance的内部api来高效、准确地抓取特定日期的公司财报数据。针对传统html解析在动态加载页面上失效的问题,文章提供了基于`requests`库的api请求方法,包括请求头、参数、json查询体的构建,以及如何处理动态cookie和crumb值,确保稳定获取财报信息。

1. 理解传统爬取方法的局限性

在使用Python进行网页数据抓取时,requests库结合BeautifulSoup是常见的组合。然而,对于许多现代网站,尤其是那些大量依赖JavaScript动态加载内容的网站,这种方法会遇到瓶颈。

以Yahoo Finance的财报日历页面为例,如果尝试直接请求其URL(例如https://finance.yahoo.com/calendar/earnings?day=YYYY-MM-DD)并使用BeautifulSoup解析返回的HTML,可能会发现无法获取到预期的财报数据,或者获取到的数据并非指定日期的最新信息。这通常是因为页面上的财报列表是通过JavaScript在浏览器端异步请求后端API后渲染的,而requests库只获取了初始的静态HTML内容,并未执行JavaScript。

例如,以下尝试获取“昨天”财报的初始代码片段,可能会因为上述原因而失败,导致获取到非预期日期(如周末)的数据:

import requests
from bs4 import BeautifulSoup as bs
from datetime import date, timedelta

today = date.today()
# 假设我们想获取上一个交易日的财报
# 如果今天是周日,timedelta(days=2) 会得到周五
# 但这种简单计算不总是可靠,特别是在处理周末和节假日时
yesterday_attempt = today - timedelta(days=2)

url = f"https://finance.yahoo.com/calendar/earnings?day={yesterday_attempt}"
page = requests.get(url)
soup = bs(page.text, 'html.parser')

# 尝试从soup中查找财报符号,可能会得到错误日期的数据
# print(soup.find('a', 'Fw(600) C($linkColor)').text)

这种方法的失败表明,我们需要一种更深入的方式来与网站交互。

立即学习Python免费学习笔记(深入)”;

2. 发现并利用Yahoo Finance的内部API

当传统的HTML解析方法失效时,通常意味着网站通过API进行数据交换。我们可以通过浏览器的开发者工具(通常按F12打开)来监控网络请求,从而发现这些隐藏的API。

云从科技AI开放平台
云从科技AI开放平台

云从AI开放平台

下载

在Yahoo Finance的财报日历页面,通过观察网络请求,可以发现它向一个特定的API端点发送POST请求来获取财报数据:https://query2.finance.yahoo.com/v1/finance/visualization。这个API返回的数据是JSON格式,结构清晰,非常适合程序化抓取。

3. 构建API请求获取财报数据

要成功调用这个API,我们需要模拟浏览器发送的POST请求,包括正确的请求头、查询参数和JSON请求体。

3.1 确定目标日期

首先,我们需要一个健壮的方法来确定要查询的日期,例如“上一个交易日”。

from datetime import date, timedelta

def get_last_trading_day(current_date: date) -> date:
    """
    获取给定日期之前的最近一个交易日。
    如果给定日期是周末,则回溯到上一个周五。
    """
    target_date = current_date
    # 0=Monday, 1=Tuesday, ..., 4=Friday, 5=Saturday, 6=Sunday
    while target_date.weekday() >= 5: # 如果是周六或周日
        target_date -= timedelta(days=1)
    return target_date

# 示例:获取今天的上一个交易日
today = date.today()
last_trading_day = get_last_trading_day(today)

# API查询需要一个日期范围,通常是目标日期当天
start_date_str = last_trading_day.strftime("%Y-%m-%d")
end_date_str = (last_trading_day + timedelta(days=1)).strftime("%Y-%m-%d") # 范围是 [start_date, end_date)

3.2 构造请求参数和数据

API请求主要由以下几部分组成:

  • 请求头(Headers): 模拟浏览器行为,User-Agent是必需的。
  • URL参数(Params): 包含一些元数据,如crumb、lang、region等。其中crumb是一个动态值,通常用于防止CSRF攻击,需要从Yahoo Finance的其他页面(如主页或任何股票详情页)的HTML中提取,或者通过观察API请求获取。
  • JSON请求体(Query Payload): 这是核心部分,定义了我们想要查询的数据类型、字段、日期范围、分页和排序方式。
import requests
from datetime import date, timedelta

# 1. 确定目标日期
today = date.today()
last_trading_day = get_last_trading_day(today) # 使用上面定义的函数

start_date_str = last_trading_day.strftime("%Y-%m-%d")
end_date_str = (last_trading_day + timedelta(days=1)).strftime("%Y-%m-%d")

# 2. 定义请求头
headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36",
    "Accept": "application/json, text/javascript, */*; q=0.01",
    "Content-Type": "application/json",
    "X-Requested-With": "XMLHttpRequest",
    "Referer": "https://finance.yahoo.com/calendar/earnings",
}

# 3. 定义URL和URL参数
url = "https://query2.finance.yahoo.com/v1/finance/visualization"
params = {
    "crumb": "YOUR_CRUMB_VALUE_HERE", # 此值通常是动态的,需要从浏览器开发者工具中获取
    "lang": "en-US",
    "region": "US",
    "corsDomain": "finance.yahoo.com",
}

# 4. 定义JSON请求体 (query payload)
query_payload = {
    "entityIdType": "earnings",
    "includeFields": [
        "ticker",
        "companyshortname",
        "eventname",
        "startdatetime",
        "startdatetimetype",
        "epsestimate",
        "epsactual",
        "epssurprisepct",
        "timeZoneShortName",
        "gmtOffsetMilliSeconds",
    ],
    "offset": 0,
    "query": {
        "operands": [
            {"operands": ["startdatetime", start_date_str], "operator": "gte"}, # 大于等于开始日期
            {"operands": ["startdatetime", end_date_str], "operator": "lt"},    # 小于结束日期
            {"operands": ["region", "us"], "operator": "eq"},
        ],
        "operator": "and",
    },
    "size": 100, # 每页获取条目数
    "sortField": "companyshortname",
    "sortType": "ASC",
}

# 5. 定义Cookie
# 'A3' cookie 通常也包含会话信息,是动态且必需的。
# 同样需要从浏览器开发者工具中获取。
cookie_a3 = "YOUR_A3_COOKIE_VALUE_HERE" # 示例: "d=AQABBK8KXmQCEA8-VE0dBLqG5QEpQ7OglmEFEgABCAHCeWWpZfNtb2UB9qMAAAcIqgpeZJj7vK8&S=AQAAAqhyTAOrxcxONc4ktfzCOkg"

# 6. 发送POST请求并处理响应
with requests.Session() as s:
    s.headers.update(headers)
    s.cookies["A3"] = cookie_a3 # 设置A3 cookie

    try:
        response = s.post(url, params=params, json=query_payload)
        response.raise_for_status() # 如果HTTP请求失败(非200状态码),则抛出异常
        data = response.json()

        # 解析并打印结果
        if data and "finance" in data and "result" in data["finance"] and \
           data["finance"]["result"] and "documents" in data["finance"]["result"][0] and \
           data["finance"]["result"][0]["documents"] and "rows" in data["finance"]["result"][0]["documents"][0]:

            print(f"--- 抓取 {last_trading_day.strftime('%Y年%m月%d日')} 的财报数据 ---")
            for r in data["finance"]["result"][0]["documents"][0]["rows"]:
                company_name = r[1] if len(r) > 1 else "N/A"
                event_name = r[2] if len(r) > 2 and r[2] else "N/A"
                start_time = r[3] if len(r) > 3 else "N/A"
                print(f"{company_name:<40} {event_name:<40} {start_time:<30}")
        else:
            print("未能获取到财报数据,请检查API响应结构或查询参数。")

    except requests.exceptions.RequestException as e:
        print(f"请求失败: {e}")
    except ValueError:
        print("响应内容不是有效的JSON格式。")
    except Exception as e:
        print(f"发生未知错误: {e}")

3.3 示例输出(部分)

运行上述代码,如果crumb和A3 cookie正确,将输出类似以下格式的财报数据:

--- 抓取 2023年12月15日 的财报数据 ---
Lewis and Clark Bank                      Q3 2023  Earnings Release                2023-12-15T13:10:00.000Z      
Alzamend Neuro, Inc.                                                              2023-12-15T16:32:00.000Z      
ATIF Holdings Ltd                         Q1 2024  Earnings Release                2023-12-15T21:00:00.000Z      
Barnwell Industries Inc                   Q4 2023  Earnings Release                2023-12-15T23:05:13.000Z      
Quanex Building Products Corp             Q4 20

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

WorkBuddy
WorkBuddy

腾讯云推出的AI原生桌面智能体工作台

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
json数据格式
json数据格式

JSON是一种轻量级的数据交换格式。本专题为大家带来json数据格式相关文章,帮助大家解决问题。

457

2023.08.07

json是什么
json是什么

JSON是一种轻量级的数据交换格式,具有简洁、易读、跨平台和语言的特点,JSON数据是通过键值对的方式进行组织,其中键是字符串,值可以是字符串、数值、布尔值、数组、对象或者null,在Web开发、数据交换和配置文件等方面得到广泛应用。本专题为大家提供json相关的文章、下载、课程内容,供大家免费下载体验。

549

2023.08.23

jquery怎么操作json
jquery怎么操作json

操作的方法有:1、“$.parseJSON(jsonString)”2、“$.getJSON(url, data, success)”;3、“$.each(obj, callback)”;4、“$.ajax()”。更多jquery怎么操作json的详细内容,可以访问本专题下面的文章。

337

2023.10.13

go语言处理json数据方法
go语言处理json数据方法

本专题整合了go语言中处理json数据方法,阅读专题下面的文章了解更多详细内容。

82

2025.09.10

Python爬虫获取数据的方法
Python爬虫获取数据的方法

Python爬虫可以通过请求库发送HTTP请求、解析库解析HTML、正则表达式提取数据,或使用数据抓取框架来获取数据。更多关于Python爬虫相关知识。详情阅读本专题下面的文章。php中文网欢迎大家前来学习。

293

2023.11.13

数据类型有哪几种
数据类型有哪几种

数据类型有整型、浮点型、字符型、字符串型、布尔型、数组、结构体和枚举等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

338

2023.10.31

php数据类型
php数据类型

本专题整合了php数据类型相关内容,阅读专题下面的文章了解更多详细内容。

225

2025.10.31

c语言 数据类型
c语言 数据类型

本专题整合了c语言数据类型相关内容,阅读专题下面的文章了解更多详细内容。

138

2026.02.12

TypeScript类型系统进阶与大型前端项目实践
TypeScript类型系统进阶与大型前端项目实践

本专题围绕 TypeScript 在大型前端项目中的应用展开,深入讲解类型系统设计与工程化开发方法。内容包括泛型与高级类型、类型推断机制、声明文件编写、模块化结构设计以及代码规范管理。通过真实项目案例分析,帮助开发者构建类型安全、结构清晰、易维护的前端工程体系,提高团队协作效率与代码质量。

26

2026.03.13

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
React 教程
React 教程

共58课时 | 6万人学习

TypeScript 教程
TypeScript 教程

共19课时 | 3.4万人学习

Bootstrap 5教程
Bootstrap 5教程

共46课时 | 3.6万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号