第233章误差反向传播算法_重生学神有系统

    在原本的世界里，“误差反向传播算法”（errorback-propagation，简称bp）出现得很早。

    1974年，哈佛大学的paulwerbos，在博士论文中首次发明了bp算法，可惜没有引起重视。

    1982年，davidparker重新发现了bp算法，然而，仍然没有太大的反响。

    到了1986年，rumelhart、hinton和williams三人发表了《learningrepresentationsbyback-propagatingerrors》，重新报道了这一方法。

    从那之后，人工神经网络中的误差反向传播学习算法，才得到了应有的重视，并逐渐广泛应用起来，奠定了神经网络走向完善和实用的基础。

    bp算法的本质，其实是lms（leastmeansquare）算法的推广。

    lms试图最小化网络输出的均方差，用于激活函数可微的感知机的训练。

    只要将lms推广到由非线性可微神经元组成的多层前馈神经网络，就得到了bp算法。

    因此，bp算法也被称为广义δ规则。

    bp算法有很多优点，理论依据坚实、推导过程严谨、物理概念清楚、通用性强……

    可以说，它为多层神经网络的训练与实现，提供了一条切实可行的解决途径，功不可没。

    但是也要看到，bp也有着自身的局限性，比如收敛速度缓慢、易陷入局部极小等。

    慢点倒还不怕，可以通过调整超参数，或者升级硬件性能来解决。

    可一旦陷入局部最优，就有可能无法得到全局最优解，这才是真正要命的问题。

    有时可以通过选择恰当的学习速率，有限度地改善这个问题。

    也有些时候无法彻底避免，只能“凑合着用”。

    幸运的是，尽管理论上存在着种种不足，但在绝大多数情景下，bp算法的实际表现都还不错。

    bp算法的基本思想，是将学习过程分为两个过程。

    在进行训练时，首先正向传播。

    将数据送入输入层，然后从前往后，送入各个隐藏层进行处理，最后将结果送到输出层，得到计算结果。

    若计算结果与期望（标签）不符，则开始进行误差反向传播。

    在这一步，通过损失函数计算实际输出与期望输出的误差e，然后从后往前，运用链式法则，逐层计算每个参数（w，b）相对于误差e的偏导数。

    这个过程就是反向传播，从输出层开始，一直进行到输入层为止。

    主要目的是将误差e分摊给各层所有单元，从而获得各层单元的误差信号。

    然后以此为基准，调整各神经元的权重和偏置，直到网络的总误差达到精度要求。

    江寒只花了3天，就理清了bp算法的思路，又花了两天，就将论文写了出来。

    这篇论文用到的数学公式相当多，但写作的困难程度其实也就那样。

    复合函数连续求偏导，任何学过一点高数的人，都能很熟练地完成。

    而且，江寒重生前，在bp算法上着实下了点功夫，理解得还算透彻。

    因此很轻松就将其复原了出来。

    写完《神经网络训练中的误差反向传播算法》之后，江寒就开始琢磨，如何将手里的这一批论文发表出去。

    也不知道怎么回事，那两篇投往三区期刊的“多层感知机”和“人工神经网络”论文，迄今没有任何回音。

    既没有拒稿，也没有进入同行评议。

    如果不是对投稿系统多少有点了解，江

『加入书签，方便阅读』