理解Keras Dense层多维输入与输出：DQN模型形状操控指南

花韻仙語

发布时间：2025-09-20 13:05:01

905人浏览过

来源于php中文网

原创

理解Keras Dense层多维输入与输出：DQN模型形状操控指南

本教程深入探讨Keras Dense层处理多维输入时的行为，解释为何其输出可能呈现多维结构。针对深度Q网络（DQN）等需要特定一维输出形状的场景，文章提供了详细的解决方案，包括如何通过Flatten层调整网络架构，确保模型输出符合预期，避免因形状不匹配导致的错误。

Keras Dense层对多维输入的处理机制

keras中的dense（全连接）层，其核心操作是：output = activation(dot(input, kernel) + bias)。当输入数据是多维时，dense层的行为可能与初学者预期有所不同。具体来说，如果输入数据的形状为(batch_size, d0, d1, ..., dn-1, dn)，dense层通常会作用于最后一个维度dn。这意味着它会将每个(dn,)子向量映射到(units,)，从而导致输出形状变为(batch_size, d0, d1, ..., dn-1, units)。

以一个具体的例子来说明：如果输入到Dense层的形状是(batch_size, d0, d1)，并且该Dense层设置了units个神经元，那么Keras会创建一个形状为(d1, units)的权重矩阵（kernel）。这个权重矩阵会独立地作用于输入中每个形状为(1, 1, d1)的子张量。最终，输出的形状将是(batch_size, d0, units)。这里的batch_size在model.summary()中通常显示为None。

考虑以下原始模型代码：

from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense

def build_model():
    model = Sequential()    
    model.add(Dense(30, activation='relu', input_shape=(26,41)))
    model.add(Dense(30, activation='relu'))
    model.add(Dense(26, activation='linear'))
    return model

model = build_model()
model.summary()

其model.summary()输出如下：

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense_1 (Dense)            (None, 26, 30)            1260      

 dense_2 (Dense)            (None, 26, 30)            930       

 dense_3 (Dense)            (None, 26, 26)            806       

=================================================================
Total params: 2,996
Trainable params: 2,996
Non-trainable params: 0
_________________________________________________________________

从model.summary()中可以看出，由于第一个Dense层的input_shape被指定为(26, 41)，这意味着每个批次中的样本都是一个26x41的矩阵。Dense层作用于最后一个维度（41），将其映射到30个单元。因此，输出形状从(None, 26, 41)变成了(None, 26, 30)。随后的Dense层也遵循相同的逻辑，最终导致模型输出形状为(None, 26, 26)。

DQN模型中常见的输出形状问题

深度Q网络（DQN）通常要求模型输出一个一维向量，其中每个元素代表一个可能动作的Q值。例如，如果游戏有26个可能的动作，DQN模型期望的最终输出形状是(None, 26)，其中None代表批次大小，26代表每个动作的Q值。

然而，上述模型产生了(None, 26, 26)的输出，这与DQN的预期不符，从而引发了类似以下的错误信息：

Model output "Tensor("dense_61/BiasAdd:0", shape=(None, 26, 26), dtype=float32)" has invalid shape. DQN expects a model that has one dimension for each action, in this case 26.

这个错误明确指出模型输出的维度过多。

解决方案：利用Flatten层重塑网络结构

解决这个问题的关键在于，在需要将多维特征展平为一维向量的层之前，插入Flatten层。Flatten层的作用是将输入数据展平为一维。例如，如果输入是(batch_size, d0, d1)，经过Flatten层后，输出将变为(batch_size, d0 * d1)。

根据DQN模型的常见输入和输出要求，通常有两种主要的策略来使用Flatten层：

场景一：将整个输入状态展平

如果input_shape=(26, 41)代表一个单一的、复杂的观测状态，例如一张26x41的图像或一个26行41列的表格数据，并且这个整体被视为一个特征向量，那么在将其送入第一个Dense层之前，应该先将其展平。

MiroThinker

MiroMind团队推出的研究型开源智能体，专为深度研究与复杂工具使用场景设计

下载

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten

def build_dqn_model_flatten_input(input_shape=(26, 41), num_actions=26):
    model = Sequential()
    # 将 (None, 26, 41) 的输入展平为 (None, 26 * 41) = (None, 1066)
    model.add(Flatten(input_shape=input_shape)) 

    # 后续的 Dense 层将接收一维输入
    model.add(Dense(30, activation='relu')) # 输出 (None, 30)
    model.add(Dense(30, activation='relu')) # 输出 (None, 30)

    # 最终输出层，生成 num_actions 个 Q 值
    model.add(Dense(num_actions, activation='linear')) # 输出 (None, num_actions)

    return model

# 构建并查看模型
model_flatten_input = build_dqn_model_flatten_input(input_shape=(26, 41), num_actions=26)
print("--- Model with Flattened Input ---")
model_flatten_input.summary()

model_flatten_input.summary()输出示例：

Model: "sequential"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 flatten (Flatten)           (None, 1066)              0         

 dense (Dense)               (None, 30)                32010     

 dense_1 (Dense)             (None, 30)                930       

 dense_2 (Dense)             (None, 26)                806       

=================================================================
Total params: 33,746
Trainable params: 33,746
Non-trainable params: 0
_________________________________________________________________

这种方法确保了最终Dense层的输入是一个展平的特征向量，从而得到期望的(None, 26)输出。

场景二：展平中间层的输出

如果模型的早期层（例如卷积层、或如原始问题中那样，Dense层被设计为独立处理输入中的某个维度）产生了多维输出，而DQN的最终输出层需要一维输入，那么可以在最终输出层之前插入Flatten层。

回到原始问题的上下文，如果input_shape=(26, 41)中的26代表某种独立实体（例如26个不同的传感器读数），而41是每个实体的特征，且希望Dense层对每个实体独立处理，然后再将所有实体的结果展平。

import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten

def build_dqn_model_flatten_intermediate(input_shape=(26, 41), num_actions=26):
    model = Sequential()
    # Dense 层作用于最后一个维度 (41)，输出 (None, 26, 30)
    model.add(Dense(30, activation='relu', input_shape=input_shape))
    model.add(Dense(30, activation='relu')) # 依然输出 (None, 26, 30)

    # 在最终输出前，将 (None, 26, 30) 展平为 (None, 26 * 30) = (None, 780)
    model.add(Flatten())

    # 最终输出层，生成 num_actions 个 Q 值
    model.add(Dense(num_actions, activation='linear')) # 输出 (None, num_actions)

    return model

# 构建并查看模型
model_flatten_intermediate = build_dqn_model_flatten_intermediate(input_shape=(26, 41), num_actions=26)
print("\n--- Model with Flattened Intermediate Output ---")
model_flatten_intermediate.summary()

model_flatten_intermediate.summary()输出示例：

Model: "sequential_1"
_________________________________________________________________
 Layer (type)                Output Shape              Param #   
=================================================================
 dense_3 (Dense)             (None, 26, 30)            1260      

 dense_4 (Dense)             (None, 26, 30)            930       

 flatten_1 (Flatten)         (None, 780)               0         

 dense_5 (Dense)             (None, 26)                20306     

=================================================================
Total params: 22,500
Trainable params: 22,500
Non-trainable params: 0
_________________________________________________________________

这种方法同样能确保最终Dense层的输入是一个展平的特征向量，从而得到期望的(None, 26)输出。

对于DQN模型，最常见且最符合直觉的做法是场景一：将整个状态观测展平为一维向量作为网络的初始输入。这是因为DQN通常将一个时刻的完整状态视为一个单一的特征集合，然后通过全连接层进行处理。

注意事项

理解input_shape： 在Keras中，input_shape参数指定的是单个样本的形状，不包含批量大小（batch_size）。例如，input_shape=(26, 41)表示每个输入样本是一个26x41的矩阵。
model.summary()的强大作用： 它是调试网络层形状问题的最佳工具。通过查看每一层的Output Shape，可以清晰地追踪数据在网络中流动的形状变化，从而定位问题所在。
tf.reshape与numpy.reshape： 这些函数主要用于在模型外部对数据进行预处理或对模型输出进行后处理。虽然它们也能改变张量形状，但在构建Keras模型内部时，Flatten层是更常用、更集成且更声明式的方法来处理形状转换。直接在模型定义中使用Flatten层，可以使模型结构更清晰，更易于理解和维护。

总结

理解Keras Dense层处理多维输入的行为是构建复杂网络结构的关键。当Dense层接收到多维输入时，它会独立作用于最后一个维度，从而可能产生多维输出。对于DQN等需要特定一维输出形状（如(None, num_actions)）的模型，Flatten层是解决多维输出到一维输出转换的有效且常用的工具。根据具体的输入数据结构和模型的设计意图，选择在网络输入端或中间层插入Flatten层，可以确保模型输出符合预期，避免因形状不匹配导致的训练错误。始终利用model.summary()来验证和调试网络各层的输出形状。

Python 类型注解对运行时的影响

XPath定位表达式入门指南：从原理到实战

Python 泛型在工程中的实际价值

使用 Pandas 对非数值尺寸列进行有序插值以填充缺失的线性空间值

Python 抽象基类 ABC 的工程价值