
本文详解如何用带sigmoid激活的单层感知机逼近cos(x)在[0, π/4]上的二次多项式,指出原代码不收敛的根本原因(缺失学习率),并给出数学严谨的梯度更新、激活函数选择建议及更优替代方案。
在函数逼近任务中,将感知机视为“可训练的线性组合器”是一种常见但易被误解的思路。用户试图通过构造输入特征向量 ([x^2, x, 1]) 并用Sigmoid激活的单神经元拟合 (\cos(x)),其直觉合理——即学习映射 (x \mapsto w_0 x^2 + w_1 x + w_2),再经Sigmoid压缩至 ((0,1)) 区间。然而,原始实现中权重更新公式 w += deltaw 隐含了学习率为1,这在梯度下降中极易导致发散:当梯度幅值较大时,参数一步跃出最优邻域,损失震荡甚至爆炸。
核心修正:引入学习率与符号规范化
首先必须显式引入学习率(如 learning_rate = 0.01),确保权重沿负梯度方向稳定更新。更关键的是,应严格遵循梯度下降的数学定义:
[
\mathbf{w} \leftarrow \mathbf{w} - \eta \frac{\partial \mathcal{L}}{\partial \mathbf{w}}
]
其中损失函数取均方误差 (\mathcal{L} = \frac{1}{2} \sum_i (y_i - \sigma(\mathbf{x}_i^\top \mathbf{w}))^2)。经链式法则推导,正确更新应为:
# 正确的梯度下降更新(含学习率与负号) learning_rate = 0.01 deltaw = -numpy.dot(training_inputs.T, errors * sigmoid_prime(outputs)) # 负梯度 w += learning_rate * deltaw # 或等价写法:w -= learning_rate * (-deltaw)
✅ 注意:原代码中 deltaw = errors * sigmoid_prime(outputs) 实际计算的是 (\partial \mathcal{L}/\partial z)(对加权和 (z) 的梯度),而 (\partial \mathcal{L}/\partial \mathbf{w} = \mathbf{x}^\top \cdot (\partial \mathcal{L}/\partial z)),故需补全负号与输入转置乘积。
激活函数的适用性边界
Sigmoid输出范围为 ((0,1)),而 (\cos(x)) 在 ([0, \pi/4]) 上取值约为 ([0.707, 1.0]),虽处于其有效区间,但若扩展至 ([0, \pi])((\cos(x) \in [-1,1])),Sigmoid将完全失效。此时应切换为双曲正切函数 tanh(x),其输出范围 ((-1,1)) 与目标函数天然匹配:
def tanh(x):
return numpy.tanh(x)
def tanh_prime(x):
return 1 - numpy.tanh(x)**2相应地,训练输出需改为 tanh(cos(x)),且网络前向传播使用 tanh(numpy.dot(training_inputs, w))。
更优实践:线性回归 vs 感知机
需明确一个本质区别:感知机+非线性激活 ≠ 多项式拟合器。当前架构实际学习的是复合函数 (\sigma(w_0 x^2 + w_1 x + w_2)),其输出并非直接等于多项式值,而是该多项式的Sigmoid变换结果。若目标是获得标准二次多项式 (p(x) = a x^2 + b x + c) 近似 (\cos(x)),最直接、高效且理论保障充分的方法是线性回归:
# 无需激活函数,直接求解最小二乘解
X = numpy.column_stack([numpy.array(R)**2, numpy.array(R), numpy.ones(len(R))])
y = numpy.array([math.cos(x) for x in R])
coeffs = numpy.linalg.lstsq(X, y, rcond=None)[0] # [a, b, c]
print("Linear regression coeffs:", coeffs)此方法解析求解,无迭代、不收敛、精度高,且系数物理意义清晰——正是所求多项式各项系数。
总结与建议
- ✅ 必做:为梯度更新添加合理学习率(0.01–0.1),并确保符号符合负梯度方向;
- ⚠️ 慎选:Sigmoid仅适用于目标值域受限于 ((0,1)) 的场景,跨域逼近优先选用 tanh 或线性输出;
- ? 优选:函数逼近任务中,若特征已手工设计(如多项式基),线性回归远比单层感知机更简洁、鲁棒、可解释;
- ? 延伸思考:若坚持使用神经网络,应转向无激活(纯线性输出层)或采用ReLU等现代激活,并配合正规化防止过拟合。
感知机的价值在于其作为神经网络基石的教学意义,但在具体数值逼近问题上,选择与问题结构匹配的工具,才是工程实践的专业体现。










