0

0

深入理解LSTM时间序列预测:数据准备与模型构建最佳实践

碧海醫心

碧海醫心

发布时间:2025-12-08 17:40:17

|

759人浏览过

|

来源于php中文网

原创

深入理解lstm时间序列预测:数据准备与模型构建最佳实践

本教程旨在解决使用LSTM进行时间序列预测时常见的“数据基数模糊”错误,并提供一套完整的解决方案。文章详细阐述了如何正确准备序列数据,将其转换为LSTM模型所需的输入格式,并指导读者构建一个适用于回归任务的LSTM模型,包括选择合适的激活函数和损失函数,最终实现准确的时间序列预测。

1. 理解LSTM与时间序列数据

长短期记忆网络(LSTM)是循环神经网络(RNN)的一种变体,特别擅长处理和预测时间序列数据。在进行时间序列预测时,我们通常希望模型能够根据历史序列数据预测未来的一个或多个值。一个常见的场景是,给定前 N 个时间步的数据,预测第 N+1 个时间步的值。

然而,初学者在使用Keras构建LSTM模型时,常会遇到 ValueError: Data cardinality is ambiguous 这样的错误。这通常是由于输入 X 和输出 Y 的样本数量不匹配,或者输入数据的形状不符合LSTM层的要求所致。此外,输出层的激活函数选择不当也是一个常见问题

2. 时间序列数据准备:构建监督学习样本

要训练一个LSTM模型,我们需要将原始时间序列数据转换为监督学习问题所需的输入-输出对。假设我们有一个一维时间序列 [1, 2, 3, 4, 5, 6, 7],并且我们知道每个样本与其前两个样本之间存在关系(例如,1, 2 预测 3;2, 3 预测 4)。这意味着我们的“序列长度”或“回溯步长”是 2。

我们需要创建一个数据生成器,将原始序列转换为以下形式:

  • 输入 (X): 包含 sequences_length 个连续时间步的序列。
  • 输出 (Y): 紧随输入序列的下一个时间步的值。

以下是一个实现此逻辑的Python函数:

import numpy as np
import tensorflow as tf
from tensorflow import keras
from tensorflow.keras import layers

# 原始时间序列数据
data = np.array([1, 2, 3, 4, 5, 6, 7])
sequences_length = 2 # 定义回溯步长

def create_sequences(data, sequences_length):
    """
    将一维时间序列数据转换为LSTM模型所需的输入-输出对。

    参数:
    data (np.array): 原始一维时间序列数据。
    sequences_length (int): 每个输入序列的长度(回溯步长)。

    返回:
    tuple: (X, Y),其中X是输入序列数组,Y是对应的目标值数组。
    """
    X, Y = [], []
    for i in range(len(data) - sequences_length):
        # 提取输入序列
        X.append(data[i : i + sequences_length])
        # 提取目标值
        Y.append(data[i + sequences_length])
    return np.array(X), np.array(Y)

# 生成训练数据
X_raw, Y = create_sequences(data, sequences_length)

# 打印生成的样本以进行检查
print("原始X样本:")
for i in range(X_raw.shape[0]):
    print(f"X[{i}]: {X_raw[i]}, Y[{i}]: {Y[i]}")

# 原始X样本:
# X[0]: [1 2], Y[0]: 3
# X[1]: [2 3], Y[1]: 4
# X[2]: [3 4], Y[2]: 5
# X[3]: [4 5], Y[3]: 6
# X[4]: [5 6], Y[4]: 7

从上述输出可以看出,我们成功从7个原始数据点中生成了5个监督学习样本。现在,X_raw 的形状是 (5, 2),Y 的形状是 (5,)。这解决了 Data cardinality is ambiguous 的问题,因为 X 和 Y 现在都有相同的样本数量(5个)。

3. LSTM输入形状的重塑

LSTM层期望的输入形状是 (samples, timesteps, features):

  • samples: 样本数量,即训练数据中的输入-输出对的数量。
  • timesteps: 每个序列的长度,即 sequences_length。
  • features: 每个时间步的特征数量。对于一维时间序列,特征数量通常是 1。

因此,我们需要将 X_raw 从 (5, 2) 重塑为 (5, 2, 1)。

QIMI奇觅
QIMI奇觅

美图推出的游戏行业广告AI制作与投放一体化平台

下载
# 重塑X以符合LSTM输入要求
X = np.reshape(X_raw, (X_raw.shape[0], sequences_length, 1))

print(f"\n重塑后的X形状: {X.shape}")
print(f"Y的形状: {Y.shape}")

现在,X 的形状是 (5, 2, 1),Y 的形状是 (5,)。

4. 构建LSTM模型

在构建LSTM模型时,除了输入形状,还需要注意输出层的选择。由于我们正在进行数值预测(回归任务),输出层应该是一个 Dense 层,且不应使用 softmax 激活函数。softmax 适用于多类别分类问题,而对于回归问题,我们通常使用线性激活(即不指定激活函数,Keras默认是线性)。

# 构建LSTM模型
model = keras.Sequential([
    # LSTM层,input_shape=(timesteps, features)
    layers.LSTM(64, input_shape=(sequences_length, 1)),
    # 全连接输出层,用于回归任务,不使用激活函数(默认为线性)
    layers.Dense(1)
])

# 编译模型
# 优化器选择 'adam'
# 损失函数选择 'mse' (均方误差) 适用于回归任务
model.compile(optimizer="adam", loss="mse")

model.summary()

注意事项:

  • layers.LSTM(64, ...) 中的 64 是LSTM单元的数量,可以根据模型复杂度和数据规模调整。
  • input_shape=(sequences_length, 1) 严格匹配我们准备好的 X 的 (timesteps, features) 部分。
  • layers.Dense(1) 表示输出一个单一的连续值。
  • loss="mse" (Mean Squared Error) 是回归任务的常用损失函数。
  • metrics=["accuracy"] 不适用于回归任务,应避免使用。

5. 模型训练

使用准备好的 X 和 Y 数据对模型进行训练。为了更好地学习数据中的模式,通常需要多个 epochs。

# 训练模型
print("\n开始训练模型...")
model.fit(X, Y, epochs=1000, batch_size=1, verbose=0) # verbose=0 关闭训练进度输出
print("模型训练完成。")

6. 模型预测

训练完成后,我们可以使用模型对新的序列数据进行预测。重要的是,用于预测的输入数据也必须按照与训练数据相同的格式进行准备和重塑。

假设我们想预测 [8, 9] 之后的下一个值。

# 准备用于预测的新数据
inference_data_raw = np.array([[8, 9]]) # 注意这里是二维数组
inference_data = np.reshape(inference_data_raw, (1, sequences_length, 1))

# 进行预测
print(f"\n预测 {inference_data_raw.reshape(-1)} 之后的下一个值...")
prediction = model.predict(inference_data)

print(f"预测结果: {prediction[0][0]:.4f}")
# 期望结果接近 10

7. 总结与最佳实践

本教程展示了如何正确地为LSTM时间序列预测任务准备数据和构建模型。核心要点包括:

  1. 数据基数匹配: 确保输入 X 和输出 Y 的样本数量(第一维度)完全一致,这是避免 Data cardinality is ambiguous 错误的关键。
  2. LSTM输入形状: LSTM层期望的输入形状是 (samples, timesteps, features)。对于一维时间序列,features 通常为 1。
  3. 数据生成器: 编写一个函数来将原始时间序列转换为 (input_sequence, target_value) 对,这是构建监督学习样本的有效方法。
  4. 输出层与激活函数: 对于回归任务,输出层应使用 Dense(1) 且通常不指定激活函数(默认为线性),避免使用 softmax。
  5. 损失函数: 针对回归任务,选择 mse (均方误差) 或 mae (平均绝对误差) 等合适的损失函数。
  6. 预测数据格式: 进行预测时,新的输入数据必须与训练数据具有相同的 (timesteps, features) 形状,并包裹在 (1, timesteps, features) 的批次维度中。

遵循这些最佳实践,可以有效避免常见的错误,并成功构建和训练用于时间序列预测的LSTM模型。

热门AI工具

更多
DeepSeek
DeepSeek

幻方量化公司旗下的开源大模型平台

豆包大模型
豆包大模型

字节跳动自主研发的一系列大型语言模型

通义千问
通义千问

阿里巴巴推出的全能AI助手

腾讯元宝
腾讯元宝

腾讯混元平台推出的AI助手

文心一言
文心一言

文心一言是百度开发的AI聊天机器人,通过对话可以生成各种形式的内容。

讯飞写作
讯飞写作

基于讯飞星火大模型的AI写作工具,可以快速生成新闻稿件、品宣文案、工作总结、心得体会等各种文文稿

即梦AI
即梦AI

一站式AI创作平台,免费AI图片和视频生成。

ChatGPT
ChatGPT

最最强大的AI聊天机器人程序,ChatGPT不单是聊天机器人,还能进行撰写邮件、视频脚本、文案、翻译、代码等任务。

相关专题

更多
scripterror怎么解决
scripterror怎么解决

scripterror的解决办法有检查语法、文件路径、检查网络连接、浏览器兼容性、使用try-catch语句、使用开发者工具进行调试、更新浏览器和JavaScript库或寻求专业帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

228

2023.10.18

500error怎么解决
500error怎么解决

500error的解决办法有检查服务器日志、检查代码、检查服务器配置、更新软件版本、重新启动服务、调试代码和寻求帮助等。本专题为大家提供相关的文章、下载、课程内容,供大家免费下载体验。

297

2023.10.25

clawdbot ai使用教程 保姆级clawdbot部署安装手册
clawdbot ai使用教程 保姆级clawdbot部署安装手册

Clawdbot是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

13

2026.01.29

clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址
clawdbot龙虾机器人官网入口 clawdbot ai官方网站地址

clawdbot龙虾机器人官网入口:https://clawd.bot/,clawdbot ai是一个“有灵魂”的AI助手,可以帮用户清空收件箱、发送电子邮件、管理日历、办理航班值机等等,并且可以接入用户常用的任何聊天APP,所有的操作均可通过WhatsApp、Telegram等平台完成,用户只需通过对话,就能操控设备自动执行各类任务。

5

2026.01.29

Golang 网络安全与加密实战
Golang 网络安全与加密实战

本专题系统讲解 Golang 在网络安全与加密技术中的应用,包括对称加密与非对称加密(AES、RSA)、哈希与数字签名、JWT身份认证、SSL/TLS 安全通信、常见网络攻击防范(如SQL注入、XSS、CSRF)及其防护措施。通过实战案例,帮助学习者掌握 如何使用 Go 语言保障网络通信的安全性,保护用户数据与隐私。

7

2026.01.29

俄罗斯Yandex引擎入口
俄罗斯Yandex引擎入口

2026年俄罗斯Yandex搜索引擎最新入口汇总,涵盖免登录、多语言支持、无广告视频播放及本地化服务等核心功能。阅读专题下面的文章了解更多详细内容。

540

2026.01.28

包子漫画在线官方入口大全
包子漫画在线官方入口大全

本合集汇总了包子漫画2026最新官方在线观看入口,涵盖备用域名、正版无广告链接及多端适配地址,助你畅享12700+高清漫画资源。阅读专题下面的文章了解更多详细内容。

190

2026.01.28

ao3中文版官网地址大全
ao3中文版官网地址大全

AO3最新中文版官网入口合集,汇总2026年主站及国内优化镜像链接,支持简体中文界面、无广告阅读与多设备同步。阅读专题下面的文章了解更多详细内容。

323

2026.01.28

php怎么写接口教程
php怎么写接口教程

本合集涵盖PHP接口开发基础、RESTful API设计、数据交互与安全处理等实用教程,助你快速掌握PHP接口编写技巧。阅读专题下面的文章了解更多详细内容。

11

2026.01.28

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 22.4万人学习

Django 教程
Django 教程

共28课时 | 3.6万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.3万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号