使用单层感知机拟合余弦函数的二次多项式近似——原理、实现与关键修正

碧海醫心

发布时间：2026-02-13 09:44:52

128人浏览过

来源于php中文网

原创

使用单层感知机拟合余弦函数的二次多项式近似——原理、实现与关键修正

本文详解如何用带sigmoid激活的单层感知机逼近cos(x)在[0, π/4]上的二次多项式，指出原代码不收敛的根本原因（缺失学习率），并给出数学严谨的梯度更新、激活函数选择建议及更优替代方案。

在函数逼近任务中，将感知机视为“可训练的线性组合器”是一种常见但易被误解的思路。用户试图通过构造输入特征向量 ([x^2, x, 1]) 并用Sigmoid激活的单神经元拟合 (\cos(x))，其直觉合理——即学习映射 (x \mapsto w_0 x^2 + w_1 x + w_2)，再经Sigmoid压缩至 ((0,1)) 区间。然而，原始实现中权重更新公式 w += deltaw 隐含了学习率为1，这在梯度下降中极易导致发散：当梯度幅值较大时，参数一步跃出最优邻域，损失震荡甚至爆炸。

核心修正：引入学习率与符号规范化
首先必须显式引入学习率（如 learning_rate = 0.01），确保权重沿负梯度方向稳定更新。更关键的是，应严格遵循梯度下降的数学定义：
[ \mathbf{w} \leftarrow \mathbf{w} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{w}} ]
其中损失函数取均方误差 (\mathcal{L} = \frac{1}{2} \sum_i (y_i - \sigma(\mathbf{x}_i^\top \mathbf{w}))^2)。经链式法则推导，正确更新应为：

# 正确的梯度下降更新（含学习率与负号）
learning_rate = 0.01
deltaw = -numpy.dot(training_inputs.T, errors * sigmoid_prime(outputs))  # 负梯度
w += learning_rate * deltaw  # 或等价写法：w -= learning_rate * (-deltaw)

✅ 注意：原代码中 deltaw = errors * sigmoid_prime(outputs) 实际计算的是 (\partial \mathcal{L}/\partial z)（对加权和 (z) 的梯度），而 (\partial \mathcal{L}/\partial \mathbf{w} = \mathbf{x}^\top \cdot (\partial \mathcal{L}/\partial z))，故需补全负号与输入转置乘积。

激活函数的适用性边界
Sigmoid输出范围为 ((0,1))，而 (\cos(x)) 在 ([0, \pi/4]) 上取值约为 ([0.707, 1.0])，虽处于其有效区间，但若扩展至 ([0, \pi])（(\cos(x) \in [-1,1])），Sigmoid将完全失效。此时应切换为双曲正切函数 tanh(x)，其输出范围 ((-1,1)) 与目标函数天然匹配：

def tanh(x):
    return numpy.tanh(x)

def tanh_prime(x):
    return 1 - numpy.tanh(x)**2

相应地，训练输出需改为 tanh(cos(x))，且网络前向传播使用 tanh(numpy.dot(training_inputs, w))。

更优实践：线性回归 vs 感知机
需明确一个本质区别：感知机+非线性激活 ≠ 多项式拟合器。当前架构实际学习的是复合函数 (\sigma(w_0 x^2 + w_1 x + w_2))，其输出并非直接等于多项式值，而是该多项式的Sigmoid变换结果。若目标是获得标准二次多项式 (p(x) = a x^2 + b x + c) 近似 (\cos(x))，最直接、高效且理论保障充分的方法是线性回归：

# 无需激活函数，直接求解最小二乘解
X = numpy.column_stack([numpy.array(R)**2, numpy.array(R), numpy.ones(len(R))])
y = numpy.array([math.cos(x) for x in R])
coeffs = numpy.linalg.lstsq(X, y, rcond=None)[0]  # [a, b, c]
print("Linear regression coeffs:", coeffs)

此方法解析求解，无迭代、不收敛、精度高，且系数物理意义清晰——正是所求多项式各项系数。