The Wayback Machine - https://web.archive.org/web/20221025120000/https://baike.sogou.com/kexue/d10730.htm

前馈神经网络

编辑
在一个前馈网络中,信息总是朝着一个方向运动;它从不倒退。

前馈神经网络是一种人工神经网络,其中节点之间的连接不形成循环。[1]因此,它不同于递归神经网络。

前馈神经网络是第一种也是最简单的人工神经网络。[2] 在这个网络中,信息只沿一个方向向前移动,从输入节点,通过隐藏节点(如果有的话)到达输出节点。网络中没有循环或环路。[1]

1 单层感知器编辑

最简单的神经网络是单层感知器网络,它由单层输出节点组成;输入通过一系列权重直接馈入输出。在每个节点中计算权重和输入的乘积之和,如果该值高于某个阈值(通常为0),则神经元触发并获取激活值(通常为1);否则,它将采用停用的值(通常为-1)。具有这种激活功能的神经元也被称为人工神经元或线性阈值单元。在文献中,感知器一词通常指仅由包含上述三种所提单元其中一个单元组成的网络。沃伦·麦卡洛克和沃尔特·皮茨在20世纪40年代描述了一个类似的神经元。

感知器可以使用任何值来创建激活和去激活状态,只要阈值在两者之间。

感知器可以通过一种简单的学习算法来训练,这种算法通常被称为增量规则(delta rule)。它是计算输出数据和样本输出数据之间的误差,并使用该误差对权重进行调整,从而通过一种梯度下降形式来实现调整。

单层感知器只能学习线性可分离模式;1969年,在著名的专著《感知器》中,马文·明斯基(Marvin Minsky)和西摩·派普茨(Seymour Papert)指出单层感知器网络不可能学习异或函数(尽管如此,众所周知多层感知器能够产生任何可能的布尔函数)。

尽管单个阈值单元的计算能力非常有限,但已经表明,在区间[-1,1]中某个实数的紧凑区间,并行阈值单元网络可以近似任何连续函数。这个结果可以在彼得·奥尔、哈拉尔德·布尔施泰纳和沃尔夫冈·马斯的《"A learning rule for very simple universal approximators consisting of a single layer of perceptrons》中找到。[3]

单层神经网络可以计算连续输出,而不是阶跃函数。一个常见的选择是所谓的逻辑函数:

  

有了这个选择,单层网络就等同于逻辑回归模型,广泛应用于统计建模。逻辑函数也被称为sigmoid函数。它导数具有连续性,因此它可以用于反向传播。该函数也是优选的,因为其导数易于计算:

  

(事实上,f满足上述微分方程,可以很容易地通过应用链式法则来证明。)

2 多层感知器编辑

一种能够计算XOR的双层神经网络。神经元内的数字表示每个神经元的显式阈值(可以将其提出来,使所有神经元具有相同的阈值,通常为1)。标注箭头的数字表示输入的权重。这个网络假设如果没有达到阈值,则输出0(不是-1)。注意,输入的底层并不总被认作一个真正的神经网络层。

这类网络由多层计算单元组成,通常以前馈方式相互连接。一层中的每个神经元都与下一层的神经元有直接的连接。在许多应用中,这些网络的单元将sigmoid函数用作激活函数。

神经网络的通用近似定理(Universal approximation theorem)指出,每个将实数区间映射到实数输出区间的连续函数,都可以由只有一个隐藏层的多层感知器任意逼近。这一结果适用于广泛的激活函数,例如sigmoid函数。

多层网络使用多种学习技术,最流行的是反向传播。这里,将输出值与正确答案进行比较,以计算某个预定义误差函数的值。通过各种技术,误差然后通过网络反馈。使用该信息,算法调整每个连接的权重,以便将误差函数值减少一些。在重复这个过程,并达到足够多的训练周期后,网络通常会收敛到计算误差很小的状态。在这种情况下,可以说网络已经学习了某个目标方程。为了适当地调整权重,我们应用了一种非线性优化的通用方法,称为梯度下降。为此,网络计算误差方程相对于网络权重的导数,并改变权重,使得误差减小(从而在误差方程的表面上下降)。因此,反向传播只能应用于具有可微分激活函数的网络。

一般来说,在测试样本上,如何来训练网络来取得良好的表现,也是一个非常微妙的问题,需要额外的技术。这对于只有非常有限数量的训练样本可用的情况尤其重要。[4]一个危险在于网络对训练数据过度拟合,无法学习生成数据的真实统计过程。计算学习理论关注在有限的数据量上训练分类器。在神经网络的环境中,一种简单的启发式方法,称为早期停止(early stopping),通常可以确保网络很好地推广到不在训练集中的例子。

反向传播算法的其他典型问题是收敛速度和最终达到误差方程局部最小值的可能性。今天,有一些实用的方法使多层感知器中的反向传播成为许多机器学习任务的首选工具。

人们也可以使用一系列由某种媒介调节的独立神经网络,类似的行为也发生在大脑中。这些神经元可以独立地执行并处理一项大任务,最终可以将结果组合在一起。 [5]

参考文献

  • [1]

    ^Zell, Andreas (1994). Simulation Neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. p. 73. ISBN 3-89319-554-8.CS1 maint: Unrecognized language (link).

  • [2]

    ^"Deep learning in neural networks: An overview". Neural Networks (in 英语). 61: 85–117. 2015-01-01. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. ISSN 0893-6080..

  • [3]

    ^Auer, Peter; Harald Burgsteiner; Wolfgang Maass (2008). "A learning rule for very simple universal approximators consisting of a single layer of perceptrons" (PDF). Neural Networks. 21 (5): 786–795. doi:10.1016/j.neunet.2007.12.036. PMID 18249524..

  • [4]

    ^Roman M. Balabin; Ravilya Z. Safieva; Ekaterina I. Lomakina (2007). "Comparison of linear and nonlinear calibration models based on near infrared (NIR) spectroscopy data for gasoline properties prediction". Chemometr Intell Lab. 88 (2): 183–188. doi:10.1016/j.chemolab.2007.04.006..

  • [5]

    ^Tahmasebi, Pejman; Hezarkhani, Ardeshir (21 January 2011). "Application of a Modular Feedforward Neural Network for Grade Estimation". Natural Resources Research. 20 (1): 25–32. doi:10.1007/s11053-011-9135-3..

阅读 2038
版本记录
  • 暂无