0

0

Python如何做时间序列预测?ARIMA模型

看不見的法師

看不見的法師

发布时间:2025-08-02 08:32:01

|

427人浏览过

|

来源于php中文网

原创

要使用python实现arima时间序列预测,核心步骤如下:1. 数据准备是基础,需确保时间序列数据完整且时间戳正确;2. 进行探索性数据分析(eda),绘制时间序列图观察趋势和异常值;3. 通过adf检验判断序列平稳性,若p值大于0.05则需差分处理;4. 根据acf和pacf图判断ar(p)和ma(q)阶数;5. 构建arima模型并拟合数据;6. 进行未来n步预测;7. 可视化预测结果并与历史数据对比。arima模型的三个参数p、d、q分别代表自回归阶数、差分阶数和移动平均阶数,p通过pacf图判断,q通过acf图判断,d则根据平稳性检验结果确定。实际应用中常见挑战包括参数选择的主观性、对平稳性的严格要求、无法处理季节性和非线性模式,以及缺乏对外部变量的支持。

Python如何做时间序列预测?ARIMA模型

Python中,利用ARIMA模型进行时间序列预测,核心在于理解数据的内在结构,并通过恰当的参数选择来捕捉趋势、季节性和随机波动。这过程远不止是调用几个函数那么简单,它更像是一场与数据进行的对话,需要我们耐心倾听,细致分析。

statsmodels
库是我们的得力助手,它提供了实现这一目标的强大工具集。

Python如何做时间序列预测?ARIMA模型

解决方案

要用Python实现ARIMA时间序列预测,我通常会这么做:

首先,数据是基石。你需要一个时间序列数据集,确保时间戳是正确的索引,并且数据是连续的。如果数据有缺失,得先处理好,比如插值或者直接删除,这取决于缺失的模式和量。

立即学习Python免费学习笔记(深入)”;

Python如何做时间序列预测?ARIMA模型
import pandas as pd
import matplotlib.pyplot as plt
from statsmodels.tsa.arima.model import ARIMA
from statsmodels.graphics.tsaplots import plot_acf, plot_pacf
from statsmodels.tsa.stattools import adfuller

# 假设df是你的DataFrame,'value'是你要预测的列
# 确保时间列是datetime索引
# df['date'] = pd.to_datetime(df['date'])
# df = df.set_index('date')
# series = df['value']

# 示例数据(实际应用中替换为你的数据)
data = [10, 12, 13, 15, 14, 16, 18, 20, 19, 22, 23, 25, 24, 26, 28, 30, 29, 32, 33, 35]
index = pd.date_range(start='2023-01-01', periods=len(data), freq='D')
series = pd.Series(data, index=index)

# 1. 探索性数据分析 (EDA)
# 绘制时间序列图,初步观察趋势、季节性、异常值
plt.figure(figsize=(10, 4))
plt.plot(series)
plt.title('原始时间序列')
plt.show()

# 2. 检验平稳性
# 使用ADF检验。如果p值大于0.05,通常认为是非平稳的,需要差分。
result = adfuller(series.dropna())
print('ADF Statistic:', result[0])
print('p-value:', result[1])

# 3. 确定差分阶数 (d)
# 如果ADF检验结果显示非平稳,进行一阶差分,并再次检验
d = 0
if result[1] > 0.05:
    series_diff = series.diff().dropna()
    result_diff = adfuller(series_diff)
    print('ADF Statistic (diff):', result_diff[0])
    print('p-value (diff):', result_diff[1])
    if result_diff[1] <= 0.05:
        d = 1 # 确定为一阶差分
        series_for_pacf_acf = series_diff
    else:
        # 可能需要更高阶差分,或者SARIMA
        print("可能需要更高阶差分或考虑季节性ARIMA (SARIMA)")
        series_for_pacf_acf = series_diff # 暂时用一阶差分后的数据分析p,q
else:
    series_for_pacf_acf = series # 数据已平稳,无需差分

# 4. 确定AR (p) 和 MA (q) 阶数
# 绘制ACF和PACF图来辅助判断
fig, axes = plt.subplots(1, 2, figsize=(12, 4))
plot_acf(series_for_pacf_acf, ax=axes[0], lags=len(series_for_pacf_acf)//2 - 1)
plot_pacf(series_for_pacf_acf, ax=axes[1], lags=len(series_for_pacf_acf)//2 - 1)
plt.show()
# 根据ACF和PACF图的拖尾和截尾情况,初步判断p和q的值
# 比如,PACF在p阶后截尾,ACF在q阶后截尾

# 5. 拟合ARIMA模型
# 假设我们根据分析确定了p, d, q的值,例如 (1, 1, 1)
p, q = 1, 1 # 根据ACF/PACF图人工选择
model = ARIMA(series, order=(p, d, q))
model_fit = model.fit()
print(model_fit.summary())

# 6. 预测
# 预测未来n步
forecast_steps = 5
forecast = model_fit.predict(start=len(series), end=len(series) + forecast_steps - 1)
print('未来', forecast_steps, '步预测值:\n', forecast)

# 7. 可视化预测结果
plt.figure(figsize=(12, 6))
plt.plot(series, label='历史数据')
plt.plot(forecast, label='ARIMA预测', color='red', linestyle='--')
plt.title('ARIMA模型预测结果')
plt.legend()
plt.show()

这个流程涵盖了从数据加载到最终预测的整个链条。当然,实际操作中,参数的选择往往需要反复试验和调整,甚至结合网格搜索或

pmdarima
库的
auto_arima
功能来自动化这个过程。

如何判断时间序列是否平稳?为什么平稳性对ARIMA很重要?

时间序列的平稳性,说白了,就是它的统计特性(比如均值、方差和自相关性)不会随着时间的推移而改变。想象一下,如果一个序列的均值一直在上升,那它就不是平稳的。判断平稳性,我通常会先看图:如果数据围绕一个恒定的均值波动,没有明显的趋势或周期性,那它可能就是平稳的。但直观判断总有局限,更严谨的做法是进行统计检验,最常用的是增广迪基-福勒检验(ADF检验)。它的原假设是时间序列存在单位根,也就是非平稳;如果P值小于某个显著性水平(比如0.05),我们就可以拒绝原假设,认为序列是平稳的。另一个是KPSS检验,它与ADF的原假设相反,原假设是序列是平稳的。

Python如何做时间序列预测?ARIMA模型

平稳性对ARIMA模型来说,简直是生命线。ARIMA模型中的AR(自回归)和MA(移动平均)部分,它们的核心假设就是数据是平稳的。如果数据不平稳,模型的参数估计就会变得不可靠,甚至可能出现“伪回归”现象,也就是模型看起来拟合得很好,但实际上并没有捕捉到数据真实的内在关系,导致预测结果偏差巨大。非平稳序列通常包含趋势或季节性,这些特性会使得序列的均值或方差随时间变化,从而违反了AR和MA模型的假设。这就是为什么ARIMA中的“I”(Integrated,差分)如此关键,它的作用就是通过差分操作,把非平稳序列转化为平稳序列,为AR和MA模型的应用铺平道路。

ARIMA模型中的P、D、Q参数分别代表什么,如何选择它们?

ARIMA模型,全称是自回归积分滑动平均模型,它的三个核心参数P、D、Q各自有明确的含义,理解它们是构建模型的关键。

  • P (AR - Autoregressive) 自回归阶数: 这个参数决定了当前观测值与过去P个观测值之间的关系。简单来说,它表示当前值受过去多少个时间点的值影响。比如,P=1意味着当前值主要受前一个时间点的值影响。在实际选择时,我们通常会看偏自相关函数(PACF)图。PACF图会显示在排除了中间滞后效应后,当前值与过去某个滞后值之间的直接相关性。如果PACF图在某个滞后阶数后迅速降到零或置信区间内,那么这个阶数很可能就是P的值。

    Melodrive
    Melodrive

    Melodrive -一个AI音乐引擎,根据用户的情绪状态和喜好生成个性化的音乐。

    下载
  • D (I - Integrated) 差分阶数: 这个参数表示为了使时间序列平稳,需要进行多少次差分操作。差分就是当前值减去前一个值,它能有效去除序列中的趋势和季节性。如果序列是非平稳的,D值通常为1或2。例如,一次差分可以去除线性趋势,两次差分可以去除二次趋势。确定D值,最直接的方法就是结合ADF检验和对原始序列图的观察。如果ADF检验P值大于0.05,就进行一次差分,再检验,直到序列平稳为止。

  • Q (MA - Moving Average) 移动平均阶数: 这个参数表示当前观测值与过去Q个预测误差之间的关系。换句话说,它捕捉了模型过去预测的“残差”对当前值的影响。选择Q值时,我们主要参考自相关函数(ACF)图。ACF图显示了当前值与过去某个滞后值之间的总相关性。如果ACF图在某个滞后阶数后迅速降到零或置信区间内,那么这个阶数很可能就是Q的值。

选择P、D、Q参数是一个经验与科学结合的过程。除了上述通过ACF/PACF图和ADF检验手动确定外,现在也有更自动化的方法,比如

pmdarima
库中的
auto_arima
函数。它会通过信息准则(如AIC或BIC)来自动搜索最佳的P、D、Q组合。虽然自动化很方便,但我个人还是建议在初步自动化选择后,再手动检查一下ACF/PACF图和模型残差,确保模型的合理性。毕竟,机器给出的“最优”不一定是最符合业务逻辑或数据特性的。

实际应用中,ARIMA模型有哪些常见挑战和局限性?

尽管ARIMA模型在时间序列预测中占据着重要的地位,但在实际应用中,它也并非万能,会遇到一些挑战和固有局限。

一个常见的挑战是参数选择的复杂性。虽然我们有ACF和PACF图作为参考,但它们的解释有时并不那么直观,特别是当序列存在复杂的自相关模式时。手动选择P、Q值往往带有一定的主观性,不同的分析师可能会得出不同的参数组合。即便使用了

auto_arima
这类工具,它也只是在预设的参数范围内进行搜索,可能无法找到全局最优解,而且对于一些特殊的数据模式,自动化工具也可能“失灵”。

对平稳性的严格要求是ARIMA的另一个挑战。虽然差分可以使非平稳序列变得平稳,但过度差分可能会导致信息丢失,或者引入不必要的噪声。而且,并非所有非平稳性都能通过简单的差分解决,比如某些复杂的周期性或趋势,可能需要更高级的变换或模型(如SARIMA)。当数据中存在显著的季节性时,标准的ARIMA模型就显得力不从心了,因为它无法直接捕捉季节性周期。这时,我们就需要转向季节性ARIMA (SARIMA) 模型,它在ARIMA的基础上增加了季节性P、D、Q参数,才能更好地处理这类数据。

此外,ARIMA模型本质上是一个线性模型。这意味着它在处理具有非线性模式的时间序列时表现会比较差。例如,如果你的数据存在阈值效应、饱和效应或者其他复杂的非线性关系,ARIMA可能就无法准确捕捉这些动态。这时,可能需要考虑更复杂的模型,如神经网络(LSTM、RNN)或基于树的模型(XGBoost、LightGBM),它们在处理非线性关系方面有更强的能力。

最后,ARIMA模型无法直接纳入外部变量。它只依赖于时间序列自身过去的值和误差来做预测。在很多实际场景中,时间序列的未来值可能受到多种外部因素的影响,比如天气、节假日、市场活动等。如果想将这些外部信息纳入模型,我们就需要使用ARIMAX或SARIMAX模型,它们是ARIMA/SARIMA的扩展,允许加入外部回归变量。但这也增加了模型的复杂性和数据准备的难度。总的来说,ARIMA是一个强大的基线模型,但对于复杂或受外部因素影响显著的场景,我们需要更灵活和全面的方法。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
PHP 命令行脚本与自动化任务开发
PHP 命令行脚本与自动化任务开发

本专题系统讲解 PHP 在命令行环境(CLI)下的开发与应用,内容涵盖 PHP CLI 基础、参数解析、文件与目录操作、日志输出、异常处理,以及与 Linux 定时任务(Cron)的结合使用。通过实战示例,帮助开发者掌握使用 PHP 构建 自动化脚本、批处理工具与后台任务程序 的能力。

44

2025.12.13

go语言 注释编码
go语言 注释编码

本专题整合了go语言注释、注释规范等等内容,阅读专题下面的文章了解更多详细内容。

32

2026.01.31

go语言 math包
go语言 math包

本专题整合了go语言math包相关内容,阅读专题下面的文章了解更多详细内容。

23

2026.01.31

go语言输入函数
go语言输入函数

本专题整合了go语言输入相关教程内容,阅读专题下面的文章了解更多详细内容。

16

2026.01.31

golang 循环遍历
golang 循环遍历

本专题整合了golang循环遍历相关教程,阅读专题下面的文章了解更多详细内容。

5

2026.01.31

Golang人工智能合集
Golang人工智能合集

本专题整合了Golang人工智能相关内容,阅读专题下面的文章了解更多详细内容。

5

2026.01.31

2026赚钱平台入口大全
2026赚钱平台入口大全

2026年最新赚钱平台入口汇总,涵盖任务众包、内容创作、电商运营、技能变现等多类正规渠道,助你轻松开启副业增收之路。阅读专题下面的文章了解更多详细内容。

267

2026.01.31

高干文在线阅读网站大全
高干文在线阅读网站大全

汇集热门1v1高干文免费阅读资源,涵盖都市言情、京味大院、军旅高干等经典题材,情节紧凑、人物鲜明。阅读专题下面的文章了解更多详细内容。

195

2026.01.31

无需付费的漫画app大全
无需付费的漫画app大全

想找真正免费又无套路的漫画App?本合集精选多款永久免费、资源丰富、无广告干扰的优质漫画应用,涵盖国漫、日漫、韩漫及经典老番,满足各类阅读需求。阅读专题下面的文章了解更多详细内容。

168

2026.01.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Node.js 教程
Node.js 教程

共57课时 | 10万人学习

CSS3 教程
CSS3 教程

共18课时 | 5.1万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号