The Wayback Machine - https://web.archive.org/web/20221026005120/https://baike.sogou.com/kexue/d11169.htm

人工神经网络

编辑
人工神经网络是一组相互连接的节点,受大脑中神经元简化的启发。这里,每个圆形节点代表一个人工神经元,箭头代表从一个人工神经元的输出到另一个人工神经元的输入的连接。

人工神经网络(ANN)或联结主义系统是受构成动物大脑的生物神经网络的启发但不完全相同的计算系统。这种系统通过例子来“学习”执行任务,而不用特定于任务的规则进行编程。例如,在图像识别中,人工神经网络可能会通过分析一些图像样本来学习识别包含猫的图像,这些图像被手工标记为“猫”或“不是猫”,并使用结果识别在其他图像中的猫。他们这样做是在没有猫的任何先验知识的情况下进行的,例如,它们有毛皮,尾巴,胡须和类似猫的脸。相反,人工神经网络会自动从它们处理的学习材料中生成识别特征。

人工神经网络是基于称为人工神经元的连接单元或节点所构成的集合,这些单元或节点松散地模拟生物大脑中的神经元。像生物大脑中的突触一样,每个连接可以将信号从一个人工神经元传输到另一个人工神经元。接收信号的人工神经元可以对其进行处理,然后向与之相连的附加人造神经元发出信号。

在常见的人工神经网络实现中,人造神经元之间连接处的信号是一个实数,每个人工神经元的输出由它的输入之和的一些非线性函数计算。人造神经元之间的联结被称为“边”。人造神经元和边通常具有随着学习进行而调整的权重。权重可以增加或减少连接处的信号强度。人造神经元可能有一个阈值,使得只有当总信号超过该阈值时才发送信号。典型的神经网络中 ,每一层都由多个人造神经元聚合而成。不同的层可以对它们的输入执行不同种类的转换。信号从第一层(输入层)传播到最后一层(输出层),可能在这过程之间会多次穿过这些层。

人工神经网络方法的最初目标是以与人脑相同的方式解决问题。然而,随着时间的推移,人们的注意力转移到了执行特定的任务上,从而逐渐偏离了生物学。人工神经网络已被用于各种任务,包括计算机视觉、语音识别、机器翻译、社交网络过滤、玩棋盘和电子游戏和医学诊断。

1 历史编辑

沃伦·麦卡洛克和沃尔特·皮茨[1](1943)基于数学和算法创建了神经网络的计算模型,称为阈值逻辑。该模型为神经网络研究分成两种方法铺平了道路。一种方法侧重于大脑中的生物过程,而另一种方法侧重于神经网络在人工智能中的应用。这项工作引领了对神经网络及其与有限自动机的联系的研究。[2]

1.1 赫布学习

在20世纪40年代末,D.O. Hebb[3]基于神经可塑性机制创建了一个学习假说,这就是众所周知的赫布学习。赫布学习是无监督学习。这演变成了长期增强作用(LTP)。研究人员于1948年开始将这些想法应用于计算模型图灵的B型机器。法利和克拉克[4](1954)首先使用计算机器,之后被称为“计算器”,来模拟赫布网络。其他神经网络计算机器由罗彻斯特、霍兰、豪比奇和杜达(1956年)创建。[5]罗森布拉特[6](1958)创建了一种模式识别算法——感知器。罗森布拉特用数学符号描述了不在基本感知器中的电路系统,例如当时神经网络无法处理的异或电路。[7]1959年,诺贝尔奖获得者 Hubel 和 Wiesel 提出一种生物模型,这种模型基于他们在初级视觉皮层中发现了两种类型的细胞:简单细胞和复杂细胞。[8]第一个多层功能网络由 Ivakhnenko 和帕拉于1965年发表,成为数据处理组合算法。[9][10]

机器学习研究人员明斯基和Papert(1969年),[11]在他们发现处理神经网络的计算机的两个关键难题后,神经网络研究陷入了停滞。第一个是基本感知机无法处理异或电路。第二,计算机没有足够的处理能力来有效处理大型神经网络所需的工作。在计算机获得更大的处理能力之前,神经网络的研究都在放缓。曾经大部分人工智能都集中在使用算法处理的高级(符号)模型上,代表性的例子是将知识转化成if-then 规则的专家系统,直到20世纪80年代后期研究才扩展到低级(子符号)机器学习,代表性的例子是知识包含在认识模型的参数中。

1.2 反向传播算法

人们重新对神经网络和学习感兴趣的一个关键触发因素是 Werbos (1975)反向传播算法,该算法通过使多层网络的训练可行且有效,有效地解决了异或问题。反向传播通过修改每个节点的权重,将误差项分布在各个层中。[7]

在20世纪80年代中期,并行分布式处理以联结主义的名字开始流行。如梅哈特和麦克莱兰(1986)描述了使用联结主义的方式来模拟神经过程。[12]

支持向量机和其他更简单的方法,如线性分类器,在机器学习中逐渐取代了神经网络。然而,神经网络使得一些领域产生了变革,例如蛋白质结构的预测。[13][14]

1992年,人们引入了“最大池化”来实现最小位移不变性和变形容耐性,以帮助实现3D对象识别。[15][16]2010年,通过最大池化来进行反向传播,并利用GPU加速其训练,结果显示其性能优于其他池化变体。[17]

梯度消失问题影响使用反向传播算法的多层次的前馈网络和递归神经网络(RNNs)。[18]随着误差从一层传播到另一层,它们随着层数呈指数级衰减,阻碍了神经元权重基于这些误差调整,特别是对深层网络的影响尤其大。

为了克服这个问题,施密休伯采用了多级网络体系(1992年),通过无监督学习一次预训练一级,并通过反向传播进行微调。[19]贝南克(2003)在解决关于图像重建和人脸定位等问题时,只依赖梯度的正负符号(Rprop )[20]

韩丁等人(2006)建议使用二进制或实值隐变量的连续层来学习高级表示,其中由受限玻尔兹曼机[21]来模拟每一层。一旦学习了足够多的层,当从顶层特征激活层对模型(“祖先通道”)进行下采样时,通过再生成数据,可以将这样的深层架构用作生成模型。[22]2012年, Ng 和 Dean 创建了一个网络,通过观看从YouTube 视频中拍摄的未标记图像,学会识别更高级别的概念,比如猫。[23]

通过诸如无监督预训练等方法,成功解决了早期在训练深度神经网络方面的挑战,同时通过使用GPU 和分布式计算提高了可用的计算能力。从此神经网络被大规模地应用,特别是在图像和视觉识别问题中。这被称为“深度学习”。

1.3 基于硬件的设计

计算设备是用CMOS 制造的,可用于生物物理模拟和神经形态计算。纳米器件[24]对于非常大规模的主成分分析和卷积可以创建一类新的神经计算,因为它们基本上是模拟的而不是数字的(尽管第一种实现可以使用数字设备)。[25]Ciresan及其同事(2010年)[26]Schmidhuber的研究表明,尽管存在梯度消失问题,GPU使得多层前馈神经网络的反向传播成为可行。

1.4 竞赛

2009年至2012年间,施密休伯研究组开发的递归神经网络和深前馈神经网络在模式识别和机器学习的竞赛赢得了八项国际比赛。[27][28]例如,Graves 等人的双向和多维长期短期记忆网络(LSTM)[29][30][31] 在2009年国际文档分析与识别会议 (ICDAR)上赢得了三项有关手写识别的比赛,没有使用任何关于这三种手写语言的先验知识。[30]

Ciresan及其同事赢得了模式识别比赛,包括IJCNN 2011交通标志识别比赛,[32]电子显微镜堆栈中神经元结构的ISBI 2012分割挑战[33]和其他比赛。在诸如交通标志识别(IJCNN 2012)或MNIST手写数字问题上,他们的神经网络是第一批能与人类水平不相上下甚至超过人类水平的模式识别器[34]

研究人员证明(2010年),利用上下文相关状态的隐马尔可夫模型作为神经网络的输出层,接在深度神经网络之后,可以大幅减少语音搜索等大词汇量语音识别任务中的错误。

基于GPU实现[35]的方法赢得了许多模式识别比赛,包括2011年IJCNN交通标志识别比赛,[32]EM堆栈中神经元结构的ISBI 2012分割挑战,[33]ImageNet竞赛[36]和其他比赛。

类似于新认知神经网络的高度非线性的深层神经架构[37]和“标准的视觉架构”,[38]受简单和复杂细胞的启发,韩丁用无监督的方法对其进行了预训练。[39]他实验室的一个团队赢得了2012年由默克赞助的竞赛,设计软件来帮助寻找可能可以确定新药的分子。[40]

1.5 卷积神经网络

截至2011年,最前沿的深度学习前馈网络都是交替地堆叠卷积层和最大池化层,[35][41]顶部是几个全连接或稀疏连接的层,后面是最终分类层。学习通常不需要无监督的预训练。在卷积层中,有与输入进行卷积的滤波器。每个滤波器相当于一个必须训练的权重向量。

这种有监督的深度学习方法,是第一个在某些实际应用中实现可以与人类表现比肩的方法。[34]

人工神经网络能够保证平移不变性,以处理大型复杂场景中的大大小小的自然对象,只有当不变性扩展到移位之外时,才能适用于所有人工神经网络学习的概念,如位置、类型(对象类标签)、比例、光照等。这是在发展网络(DNs)中得以实现,[42]其实施例是Where-What Networks,WWN-1 (2008)[43]至WWN-7 (2013)。[44]

2 模型编辑

神经元和有髓轴突,信号从树突的输入流向轴突末端的输出

人工神经网络是由叫做人造神经元的简单元素构成的网络,其接收输入,改变其内部状态(激活),并根据输入和激活产生输出。

人工神经元模仿有输入和输出的生物物理学神经元模型,但不是生物神经元模型。

神经网络通过将某些神经元的输出与其他神经元的输入连接形成一个有向加权图。权重以及计算激活的函数可以通过学习得到,这个过程由一个学习规则所定义。[45]

2.1 人工神经网络的组成部分

神经元

带有标签的神经元   接收来自前面的神经元输入   ,由以下成分组成:[45]

  • 激活    ,该神经元的状态取决于离散时间参数,
  • 某些情况下有固定阈值    ,或者由学习函数决定的阈值(自适应阈值)。
  • 激活函数    根据    ,    和输入    计算给定时间    的新的激活

  ,

  • 输出操作    计算激活的输出

  

通常输出函数只是恒等函数。

输入神经元的前面没有神经元,而是作为整个网络的输入接口。类似地输出神经元没有后继神经元,因此充当整个网络的输出接口。

联结、权重和偏置

神经网络由连接组成,每个连接传递一个神经元   的输出到神经元   的输入。从这个意义上说      的前身,      的后继。每个连接都分配了一个权重   [45]有时会在输入的总加权和中添加一个偏置项,作为激活函数的阈值。[46]

传播函数

传播函数由前面的神经元的输出    计算到神经元   的输   ,并且通常具有以下形式[45]

  

当偏置值加入到函数中时,上述形式会变为以下形式:[47]

  ,其中   是偏置。

学习规则

学习规则是修改神经网络参数的规则或算法,以便网络针对给定输入产生合适的输出。学习过程通常相当于调整网络中变量的权重和阈值。[45]

2.2 神经网络的函数模型

神经网络模型可以看作是定义了一个函数的简单数学模型   ,可以看作在   上或者      两者都有的一种分布。有时模型与特定的学习规则密切相关。术语“人工神经网络模型”的一个常见用法是定义了一类这样的函数(通过改变不同的参数、连接权重、或者特定的网络架构(例如神经元的数量和连接关系)来得到这类函数中的成员)。

数学上,神经元网络的函数   被定义为其他函数   的组合,   可以进一步分解成其他函数。这可以方便地表示为网络结构,用箭头描述函数之间的依赖关系。一种广泛使用的组合是非线性加权和,其中   ,其中   (通常称为激活函数[48])是一些预定义的函数,例如双曲正切或S型函数或 softmax函数或ReLU函数。激活函数的重要特征是,当输入值改变时,它提供平滑过渡,即输入的小变化产生输出的小变化。以下我们用向量   来描述函数   的集合。

人工神经网络依赖图

该图描述了这样一种   的分解,变量之间的依赖关系由箭头表示。这些可以用两种方式解释。

第一个观点是函数观点: 输入   被转换成一个三维向量   ,然后将其转换成二维向量   ,最终转化为   。这种观点最常见于优化任务中。

第二种观点是概率观点: 随机变量   取决于随机变量      取决于      这取决于随机变量   。这种观点最常见于图模型中。

这两种观点基本是等价的。在任一种情况下,对于特定的体系结构,各个层内部相互独立(例如给定网络的输入      向量中的各个部分相互独立)。这自然会在实现中实现一定程度的并行性。

递归神经网络依赖图的两个独立描述

像前面这样的网络通常被称为前馈,因为它们的图是一个有向无环图。具有环的网络通常称为循环网络。这种网络通常以图中顶部所示的方式描述,其中   依赖于自身。然而,图中没有显示出隐含的时间依赖性。

2.3 学习

神经网络的可学习性引起了人们对它的极大兴趣。给定一个特定的任务,以及一类函数   ,学习意味着使用一组观测结果来得到   ,使得   在某种最佳意义上解决了任务。

这需要定义一个成本函数   使得对于最佳解决方案   , 有       – 即没有其他任何解决方案的成本低于最佳解决方案的成本(参见算法优化)。

成本函数   是学习中的一个重要概念,因为它衡量一个特定任务的当前解决方案离最优解决方案有多远。学习算法通过搜索解决方案空间来找到成本最小的函数。

对于解决方案依赖于数据的应用,成本必须是观测值的函数,否则模型将与数据无关。它通常被定义为只能进行近似的统计量。作为一个简单的例子,考虑这样一个问题:要找到描述模型的函数   ,一般通过最小化   ,其中   是从某种分布   中提取的数据对。在实际情况下,我们只有   个样本来自   。因此,对于上面的例子,我们将只最小化   。因此,我们做的是对数据样本的成本最小化,而不是整个分布的成本最小化。

  的时候必须使用某种形式的在线机器学习,其中成本随着每个新样本的出现而降低。虽然在线机器学习通常用于当分布   是固定的,但是它在分布   随时间缓慢变化的情况下最有用。在神经网络方法中,某些形式的在线机器学习经常用于有限数据集。

选择成本函数

虽然定义一个特设成本函数是可能的,但是经常使用一个特定的成本函数,要么因为它具有期望的属性(例如凸性),要么因为它自然地来自问题的特定公式(例如,在概率公式中,模型的后验概率可以用作逆成本)。最终,成本函数取决于任务。

反向传播算法

DNN 可以用标准反向传播算法进行判别训练。反向传播算法是一种计算损失函数 (产生与给定状态相关的成本)相对于ANN中权重的梯度的方法。

连续反向传播的基础[49][50]由1960年凯利[51]在控制论的背景下,和1961年由布赖森[52]使用动态规划的原理推导出来。1962年,德雷福斯发表了一个仅基于链式法则的更简单的推导。[53]Bryson和 Ho 在1969年将其描述为一种多阶段动态系统优化方法。[54][55]1970年,林奈玛最终发表了嵌套可微函数的离散连通网络的自动微分的通用方法。[56][57]这对应于现代版本的反向传播,即使网络很稀疏,反向传播也是有效的。[58][59]1973年,德雷福斯使用反向传播来根据误差梯度调整控制器的参数。[60]1974年, Werbos 提到了将这一原理应用于人工神经网络的可能性,[61]1982年,他将林奈玛的AD方法应用于神经网络,这种方法在今天得到了广泛的应用。[62]1986年,鲁梅尔哈特、韩丁和威廉姆斯指出,这种方法可以在神经网络的隐藏层中生成输入数据的有用的内部表示。[63]1993年,Wan第一次通过反向传播赢得国际模式识别比赛。[64]

反向传播的权重更新可以通过使用以下等式的随机梯度下降来完成:

  

其中,   是学习率,   是成本(损失)函数,   是一个统计量。成本函数的选择取决于学习类型(监督、非监督、强化等)和激活功能。例如,当对多类分类问题执行监督学习时,激活函数和成本函数的常见选择分别是 softmax 函数和交叉熵函数。softmax函数定义为   ,其中   表示类别概率(单位   的输出),      各自表示同一层级的单位      的总输入。交叉熵定义为   ,其中   表示输出单位   在输入为   时的训练目标值(一般为0或1),   是在激活函数之后的输出,表示预测结果为   的概率。[65]

这些可以用于以二进制掩码的形式输出图片中要预测的对象的边框。它们还可用于多尺度回归,以提高定位精度。基于DNN的回归除了作为一个好的分类器之外,还可以学习捕获几何信息的特征。DNN不需要显式地对各部分及它们内部之间的关系进行建模。这有助于拓宽可以学习的对象的种类。该模型由多个层组成,每个层都有一个ReLU作为非线性变换的激活函数。有些层是卷积的,而其他层是全连接的。每个卷积层都有一个额外的最大池化层。该网络在整个训练集上的被训练以最小化 L2误差,用于预测图片中对象的掩码,这个训练集中包含了以掩码的方式表示的边框。

反向传播的替代方案包括极限学习机,[66]“No-prop”网络,[67]无回溯的训练,[68]“无权重”网络,[69][70]和非连接神经网络。

2.4 学习范例

三种主要的学习模式各对应一项特定的学习任务。这些是监督学习、非监督学习和强化学习。

监督学习

监督学习使用一组样本点   ,目的是在能够匹配样本的函数簇中找到一个函数   。换句话说,我们希望推断数据隐含的映射;成本函数与我们的映射和数据之间的不匹配有关,它隐含地包含了关于问题域的先验知识。[71]

常用的成本函数是均方差,它试图在所有样本点上最小化网络输出   和目标值   之间的平均平方误差。多层感知器(MLP)神经网络使用梯度下降来最小化该成本,产生了用于训练神经网络的反向传播算法。

属于监督学习范式的任务有模式识别(也称为分类)和回归(也称为函数逼近)。监督学习范例也适用于顺序数据(例如,手写、语音和手势识别)。这可以被认为是与“教师”一起学习,以函数的形式,对迄今为止可以获得的解决方案的质量提供连续反馈。

非监督式学习

在无监督学习中,给出一些数据   并最小化成本函数,它可以是关于数据   以及网络输出   的任何函数。

成本函数取决于任务(模型域)和任何先验假设(模型的隐式属性、参数和观测变量)。

作为一个小例子,考虑这个模型   ,其中   是一个常数,成本   。最大限度地降低这一成本会得到等于数据的平均值的   。实际上的成本函数可能要比这复杂得多。其形式取决于应用:例如,在压缩中,它可能与      之间的互信息相关,而在统计建模中,在给定数据的模型中它可能与后验概率有关(注意在这两个例子中,这些量都是要被最大化而不是最小化)。

属于无监督学习范例的任务通常是估计问题;应用包括聚类、统计分布估计、压缩和滤波。

强化学习

在强化学习中,数据   通常不是给定的,而是由智能体与环境的交互产生的。在每个时间点   ,智能体执行一个操作   ,环境会根据一些(通常未知的)动态系统产生一个观察结果   和瞬时成本   。其目的是发现一种选择行动的策略,该策略能够最小化长期成本的某种度量,例如预期累积成本。环境的动态系统和每项策略的长期成本通常是未知的,但可以通过估计得到。

更正式地说,环境被建模为具有状态   和行动   的马可夫决策过程 (MDP),其概率分布如下:瞬时成本分布   ,观察分布   和状态转移   ,其中策略被定义为:给定观察结果的情况下,作出的行动的条件分布。两者结合起来,定义了一个马尔可夫链(MC)。目标是发现最小化成本的策略(即MC)。

人工神经网络作为整个算法的一部分,经常被用于强化学习中。[72][73] Bertsekas 和 Tsitsiklis 将动态规划与人工神经网络耦合(给出神经动态规划)[74],并且应用于多维非线性问题,例如那些涉及车辆路线[75] 自然资源管理[76][77]或者医学[78]的问题,因为即使当减少离散化网格密度以数值逼近原始控制问题的解时,人工神经网络也能够减轻精度损失。

属于强化学习范式的任务是控制问题、游戏和其他序贯决策任务。

2.5 学习算法

训练神经网络模型本质上意味着从允许的模型集合中选择一个模型(或者在贝叶斯框架中,确定允许的模型集合上的分布),以最小化成本。许多算法可用于训练神经网络模型;它们中的大多数可以被看作是最优化理论和统计估计的直接应用。

大多数使用某种形式的梯度下降,使用反向传播来计算实际梯度。这是通过简单地获取成本函数相对于网络参数的导数,然后在梯度相关的方向上改变这些参数来实现的。反向传播训练算法分为三类:

  • 最陡下降(具有可变的学习速率和动量,弹性反向传播);
  • 拟牛顿法( Broyden-Fletcher-Goldfarb-Shanno ,一步割线);
  • Levenberg-Marquardt和共轭梯度(Fletcher-Reeves更新,Polak-Ribiére更新,Powell-Beale重启,缩放共轭梯度)。[79]

进化方法,[80] 基因表达式编程,[81] 模拟退火,[82] 期望最大化(EM算法)、非参数方法和粒子群优化[83]是训练神经网络的其他方法。

收敛递归学习算法

这是一种专门为小脑模型关节控制器 (CMAC)神经网络设计的学习方法。2004年,递归最小二乘算法被引入在线训练 CMAC 神经网络。该算法可以在一步内收敛,并在一步内用任何新的输入数据更新所有权重。最初,该算法的计算复杂度为ON3)中。基于 QR分解,该递归学习算法的复杂度被简化为ON)。[84]

3 最优化编辑

优化算法不断重复两个阶段:误差传播和权重更新。当输入向量输入网络时,它通过网络逐层向前传播,直到到达输出层。然后使用损失函数将网络输出与目标输出进行比较,计算输出层中每个神经元的误差值。然后,误差值从输出端通过网络反向传播回来,直到每个神经元都有一个反映其对原始输出的贡献的误差值。

反向传播使用这些误差值来计算损失函数的梯度。在第二阶段,该梯度被馈送到优化算法中,优化算法使用它反过来更新权重,以试图最小化损失函数。

3.1 算法

  是一个神经网络,具有   个连接,   个输入   个输出。

下面,   将表示   中的向量,   表示   中的向量,和   表示   中的向量。这些分别叫做输入,输出权重

神经网络对应于一个函数   给定权重   ,映射输入   到输出   

优化过程将以下序列   作为输入训练样本,并产生一系列权重   ,通常从某个随机选择的初始权重   开始。

这些权重依次计算:第一次计算   仅使用      。该算法的输出为   ,得到一个新的函数   。每一步的计算都是相同的,因此我们只描述   的情况。

在从   计算   的过程中,考虑可变的权重   ,并从   开始,将梯度下降应用于该函数   ,以找到一个局部最小值。

这使得   通过梯度下降找到的最小权重。

4 算法的代码编辑

为了实现上述算法,要计算函数的梯度,那么函数   需要显式的公式定义,在这里我们使用   

学习算法可分为两个阶段:误差传播和权重更新。

4.1 阶段1:传播

每次传播包括以下步骤:

  1. 通过网络向前传播以产生输出值
  2. 成本计算(误差项)
  3. 由训练目标生成所有输出和隐藏神经元的变化量(目标和实际输出值之间的差值),并将其反向传播到网络中。

4.2 阶段2:权重更新

对于每个权重,必须遵循以下步骤:

  1. 将权重的输出变化量和输入激活相乘,以得到权重的梯度。
  2. 从权重中减去权重梯度与一个比率(通常为一个百分比)的乘积。

这个比率(百分比)影响学习的速度和质量;它被称为学习率。学习率越大,神经元训练越快,但学习率越低,训练就越准确。权重梯度的符号表示误差是与权重成正比还是反比。因此,权重必须在相反的方向上更新,从而沿着梯度“下降”。

(在新的样本批次上)重复学习,直到网络充分运行。

4.3 伪代码

以下是用于训练三层网络(只有一个隐藏层)的随机梯度下降算法的伪代码语句:

  initialize network weights (often small random values)  do
     forEach training example named ex
        prediction = neural-net-output(network, ex)  // forward pass
        actual = teacher-output(ex)
        compute error (prediction - actual) at the output units
        compute 
  
  
   
    
     
      
     
     
      
      
     
    
     for all weights from hidden layer to output layer  // backward pass
        compute 
  
  
   
    
     
      
     
     
      
      
     
    
     for all weights from input layer to hidden layer   // backward pass continued
        update network weights // input layer not modified by error estimate
  until all examples classified correctly or another stopping criterion satisfied  return the network

标记为“backward pass”的行可以使用反向传播算法来实现,该算法计算误差关于可变权重的梯度。[85]

5 扩展编辑

学习率   的选择很重要,因为大的值会导致变化太大,导致在下降过程中错过最小值,而过低的学习速度会不必要地降低训练速度。

Quickprop 等优化主要旨在加快误差最小化;其他改进主要是试图提高可靠性。

5.1 自适应学习率

为了避免网络内部的振荡(如交替的连接权重)和提高收敛速度,该算法的改进使用了自适应学习速率。[86]

5.2 惯性

通过将可变惯性项(动量)   ,梯度和上一次权重的变化组合起来,并进行加权添加在本次权重调整过程中,使得权重调整额外取决于权重先前的变化量。如果动量   等于0时,变化仅取决于梯度,而   为1的时候,仅取决于上一次权重的变化量。 类似于球滚下山,其当前速度不仅由山的当前坡度决定,还由其自身的惯性决定,加上惯性项之后:

 其中:

  是神经元   和神经元   之间的连接的权重      时刻的变化量

   是学习率(   

  是神经元   的误差信号

  是神经元   的输出,它也是当前神经元(神经元   )的输入,

     惯性项的系数(在   中)。这对应于前一时刻的权重变化。

惯性使当前   权重的变化量取决于损失函数的当前梯度(山的斜率,公式中的第一项),以及与前一时刻的权重变化(惯性,第二项)。

惯性可以避免卡住的问题(在陡峭的峡谷和平坦的高原)。例如,由于损失函数的梯度在平坦的高原上变得非常小,高原将立即导致梯度下降的“减速”。惯性项的增加会延迟减速,以便更快地逃离平坦的高原。

6 学习模式编辑

有两种学习模式:随机学习和批量学习。在随机学习中,每个输入都会产生一个权重调整。在批处理学习中,权重根据一批输入累积整个批的误差之后,再进行调整。随机学习将“噪声”引入梯度下降过程,使用从一个数据点计算的局部梯度;这减少了网络陷入局部最小值的机会。然而,批处理学习通常会产生更快、更稳定的下降到局部最小值,因为每次更新都是在批处理平均误差的方向上执行的。一个常见的折衷选择是使用“小批量”,即小批量,每个批量中的样本从整个数据集随机选择。

7 变体编辑

7.1 数据处理组合算法

数据处理组合算法[87]具有全自动结构和参数模型优化功能。节点激活函数是允许加法和乘法的 Kolmogorov -Gabor多项式。它使用了一个具有八层的深度前馈多层感知器。[88]这是一个逐层增长的监督学习网络,其中每一层都通过回归分析进行训练。使用验证集检测无用的项目,并通过正则化进行删减。最终网络的大小和深度取决于任务。[89]

7.2 卷积神经网络

卷积神经网络是一类深度前馈网络,由一个或多个卷积层组成,网络的顶部是全连接层(与典型人工神经网络中的层一样)。它使用共享权重和池化层。特别是最大池化[90],通常由福岛的卷积结构构成。[90]这种架构允许CNN利用2D结构的输入数据。 CNN适用于处理视觉和其他二维数据。[91][92]它们在图像和语音应用中都显示出优异的效果。他们可以接受标准反向传播训练。CNN比其他常规的、深度的前馈神经网络更容易训练,并且需要估计的参数更少。[93]计算机视觉应用的例子包括DeepDream[94]和机器人导航。[95]

最近的发展是胶囊神经网络CapsNet,其背后的思想是向CNN添加称为胶囊的结构,并复用其中几个胶囊的输出,以形成更稳定(相对于各种扰动)的高阶胶囊表示。[96]

7.3 长短期记忆网络

长短期记忆(LSTM)网络是避免梯度消失问题的神经网络。[97]LSTM通常由称之为遗忘门的循环门组成。[98]LSTM网络防止反向传播的误差消失或爆炸。[99]LSTM在空间上可以进行展开,误差可以在展开后的无限数量的虚拟层上反向传播。也就是说,LSTM可以学习“非常深的学习”任务[99]这需要对几千甚至几百万个离散时间步骤前发生的事件进行记忆。特定问题的LSTM型拓扑结构可以不断优化。[99]LSTM能够处理长时间的延迟和混合了低频和高频成分的信号。

在给定相应的输入序列的情况下,由联结主义时间分类(CTC)训练[100]的堆叠LSTM RNN[101],可以找到使训练集中标签序列的概率最大化的RNN权重矩阵。CTC同时实现了对齐和识别。

2003年,LSTM的表现开始可以与传统的语音识别器进行竞争。[102]2007年,LSTM与CTC结合后在语音数据方面取得了初步的良好效果。[103]2009年,接受CTC训练的LSTM是第一个赢得模式识别竞赛的RNN,当时它在多个联网的手写识别竞赛中获胜。[99][104]2014年,百度在没有传统语音处理方法的情况下,使用经过CTC训练的RNN打败 Switchboard Hub5'00语音识别的基线算法。[104]LSTM改进了大词汇量语音识别,[105][106]语音合成[107](谷歌安卓[108][108]),和真人头像。[109]2015年,通过CTC训练的LSTM,谷歌的语音识别能力提高了49%。[110]

LSTM在1960年开始在自然语言处理中流行。与之前基于隐马尔科夫模型或类似概念的模型不同,LSTM可以学会识别上下文相关语言。[111]LSTM改进了机器翻译,[112][113] 语言建模[114]和多语言语言处理。[115]LSTM结合CNN改进了自动图像标题。[116]

7.4 深层储备池计算

深层储备池计算和深层回声状态网络[117][118]为高效训练的模型提供框架,用于时间数据的分层处理,同时能够研究RNN分层合成的内在作用。

7.5 深层信念网络

可见和隐藏单元之间的全连接受限玻尔兹曼机 (RBM)。注意没有隐藏-隐藏或可见-可见的连接。

深度信念网络(DBN)是由多层隐藏单元组成的概率性生成模型。它可以被认为是多个构成每一层的简单学习模块的组合。[119]

通过使用学习到的DBN权重作为初始DNN权重,DBN可以用于生成性地预训练DNN。反向传播或其他判别算法可以调整这些权重。当训练数据有限时,这尤其有用,因为初始化不良的权重会显著影响模型性能。这些预先训练的权重位于权重空间中比随机选择的权重更接近最优权重的区域。这允许改进建模和更快的微调阶段收敛。[120]

7.6 大内存存储和检索神经网络

大内存存储和检索神经网络(LAMSTAR)[121][122]是可以同时使用许多滤波器的多层快速深度学习神经网络。这些滤波器可以是非线性的、随机的、逻辑的、非平稳的,甚至是非解析的。他们有生物学方面的动机并不断学习。

LAMSTAR神经网络可以在空间、时域或两者中作为动态神经网络。它的速度由赫布链接权重提供[123],该权重将各种且通常不同的过滤器(预处理函数)集成到它的许多层中,并且依据各种层和函数相对于给定学习任务的重要性,动态地进行排名。这非常类似于集成了各种预处理程序(耳蜗,视网膜,等等。)和皮质(听觉,视觉,等等。)和它们的不同区域。通过使用抑制、关联和处理不完整数据或甚至在任务中“丢失”神经元或层的能力,它的深度学习能力得到进一步增强。由于其链接权重,这些是显而易见的。链接权重允许动态确定创新和冗余,并便于任务对层、过滤器或单个神经元进行排序。

LAMSTAR已经应用于许多领域,包括医学领域[124][125][126]和财务预测,[127]未知噪声中噪声语音的自适应滤波,[128]静止图像识别,[129]视频图像识别,[130]软件安全性[131]和非线性系统的自适应控制。[132]在20项比较研究中,LAMSTAR的学习速度比基于ReLU 函数过滤器和最大池化的CNN快得多,错误率略低。[133]

这些应用演示了对隐藏在浅层学习网络和人类感官中的数据方面的深入研究,例如在预测睡眠呼吸暂停事件开始的情况下,[125]在怀孕早期放置在母亲腹部的皮肤表面电极记录下的胎儿心电图,[126]金融预测[121]或者在噪声语音的盲滤波中。[128]

LAMSTAR于1996年提出(A 美国专利 5,920,852 A),并由Graupe和Kordylewski[134][135][136]在1997-2002年进一步发展。施耐德和Graupe在2008年开发了一个被称为LAMSTAR 2的修改版本。[137][138]

7.7 堆叠式(去噪)自动编码器

自动编码器的理念来源于如何得到(数据)好的表示。例如,对于一个分类器,一个好的表示可以被定义为产生一个性能更好的分类器。

编码器是将输入向量x转换成隐含表示y的确定性映射   ,其中   ,   是权重矩阵b是偏移向量(偏置)。解码器通过    把重构的输入z映射回隐含表示y。自动编码的整个过程是将这个重构的输入与原始输入进行比较,并尽量减小误差,使重构的值尽可能接近原始值。

堆叠式去噪自动编码器,部分损坏的输出被清除(去噪声)。这一想法是由文森特等人在2010年提出的。[139]用一种特殊的方法得到好的表示好的表示是可以鲁棒地从损坏的输入中获得的,并且对于恢复相应的干净输入是有用的这个定义隐含着以下思想:

  • 较高级别的表示相对稳定,并且对输入损坏具有鲁棒性;
  • 有必要提取对表示输入分布有用的特征。

该算法从   转移   的随机映射   开始,这是引入噪声的一步。然后是损坏的输入   通过基本的自动编码器,并映射到隐含的表示   。从这个隐含的表示,我们可以重建   。在最后阶段,运行最小化算法,以便z尽可能接近未损坏的输入   。重建误差   可能是affine-sigmoid解码器的交叉熵损失,或者是仿射解码器的平方误差损失。[139]

为了构建一个深度架构,堆叠的自动编码器。[140]一旦学习到第一个去噪自动编码器中的编码函数   ,其可以作为无损输入(有损输入)来训练第二级编码器。[139]

一旦堆叠式自动编码器被训练完成,其输出可被用作监督学习算法的输入,例如支持向量机分类器或多类逻辑回归。[139]

7.8 深层堆叠网络

深度堆叠网络(DSN)[141](深凸网络)是基于简化的神经网络模块的层次结构。它是由邓和董在2011年提出的。[142]它将学习公式化为一个具有封闭形式解的凸优化问题,强调了该机制与堆积泛化的相似性。[143]每个DSN块是一个简单的模块,很容易以监督的方式单独训练,而不需要对整个块进行反向传播。[144]

每个块由一个简化的多层神经网络 (MLP)组成,只有一个隐藏层。隐藏层h 的激活函数是 sigmoid 单元,输出层的激活函数是线性单元。这些层之间的连接由权重矩阵U表示;从输入到隐藏层的连接权重矩阵是 W。目标向量t形成矩阵T的列,输入数据向量x形成矩阵X的列。隐藏单元的矩阵是   。各个模块是按顺序训练的,所以较低层的权重W在每个阶段都是已知的。该函数对矩阵中每个元素执行sigmoid运算。每个估计得到相同的最终标签类别y,其估计值与原始输入X连接起来,以形成下一个块的扩展输入。因此,第一块的输入只包含原始数据,而下游块的输入增加了前面块的输出。然后,给定网络中的其他权值,学习上层权重矩阵U的过程可以公式化为凸优化问题:

  

其具有封闭形式的解。

与其他深层架构(如数据库网络)不同,这个问题的目标不是得到转换后的特征表示。这种架构的层次结构将并行学习转化为批量优化问题,使其变得简单明了。在纯判别任务中,DSN的表现优于传统的 DBN.[141]

7.9 张量深度叠加网络

这种体系结构是DSN的扩展。它提供了两个重要的改进:它使用来自协方差统计量的高阶信息,并且它将下层的非凸问题转换为上层的凸子问题。[145]TDSNs使用协方差统计,以双线性映射的方式通过三阶将同一层中两组不同的隐藏单元中的每一组映射到预测张量。

虽然并行化和可伸缩性在传统的DNNs并没有得到太多的关注,[146][147][148]但是所有DSNs和TDSNs的学习都在批处理模式下完成,以允许并行化。[142][141]并行化允许将设计扩展到更大(更深)的架构和数据集。

基本架构适用于不同的任务,如分类和回归。

7.10 尖峰-平板 RBMs

像高斯限制玻尔兹曼机一样,需要用实值输入进行深度学习,这催生了尖峰-平板 RBM (ss RBM ),它用严格的二进制隐变量对连续值输入进行建模 [149]。类似于基本的 RBMs 及其变体, ssRBM 是一个二分图,像 GRBMs 一样,可见单元(输入)是实值的。不同之处在于隐藏层,其中每个隐藏单元都有一个二进制尖峰变量和一个实值平板变量。尖峰变量是离散分布在0处的离散概率质量,而平板变量是分布在连续域上的概率密度;[150]它们结合之后形成先验概率。[151]

ssRBM 的扩展称为µ-ssRBM ,使用能量函数中的附加项提供额外的建模能力。其中一项使模型能够通过在给定观测结果的情况下边缘化平板来形成尖峰变量的条件分布。

7.11 复合分层深度模型

复合分层深度模型由深度网络和无参贝叶斯模型组成。特征可以使用深度架构来学习,例如DBN[152],DBM[152],深度自动编码器,[153]卷积变体,[154][155]ssRBM,[150]深度编码网络,[156]具有稀疏特征学习的DBN,[157]RNN,[158]条件DBN,[159]去噪自动编码器。[160]这提供了更好的表示,从而允许更快的学习和更准确的高维数据分类。然而,这些体系结构不善于学习没有多少样本的新颖类,因为所有网络单元都参与对输入的表示(分布式表示)并且必须一起调整(高自由度)。限制自由度减少了要学习的参数数量,有助于从少数样本中学习新类。分层贝叶斯模型允许从少样本中学习,例如[161][162][163][164][165]对于计算机视觉、统计学和认知科学。

复合分层深度架构旨在集成HB和深层网络的特性。HDP-DBM复合架构是将分层狄利克雷过程 (HDP)作为分层模型,与DBM架构相结合。它是一个完整的生成模型,由流过模型各层的抽象概念推广而来,能够在看起来“合理”自然的新颖类中合成新的例子。所有级别都是通过最大化联合对数概率分布 分数来共同学习的。[166]

在一个有三个隐藏层的DBM中,可见输入的概率ν是:

  

其中   是隐藏单元的集合,并且   是模型参数,表示可见-隐藏和隐藏-隐藏的对称交互项。

学习的DBM模型是定义联合分布的无向模型   。表达所学知识的一种方式是条件模型   和前一项   

这里   表示一个条件DBM模型,它可以被视为一个两层的DBM,同时拥有由状态   (d )决定的偏置项:

  

7.12 深度预测编码网络

深度预测编码网络是一种预测性的编码方案,使用自顶向下的信息根据经验地来调整深度连接的生成模型来表示的自底向上的推理过程所需要的先验信息。这可以通过提取稀疏的特征使用线性动力学模型从时变观测得到。然后,使用池化策略来学习不变特征表示。这些单元组成了一个深层次的架构,并由按层遍历的贪心无监督学习训练。这些层构成了一种马尔可夫链,使得任何层的状态仅取决于前一层和后一层。

DPCNs通过使用上层信息和来自先前状态的时间依赖性,使用自顶向下的方法来预测层的表示。[167]

DPCNs可以扩展成一个卷积网络。[167]

7.13 具有独立存储结构的网络

将外部存储器与人工神经网络集成可以追溯到分布式表示的早期研究[168]和Kohonen的自组织神经网络。例如,在稀疏分布记忆或者分层时间记忆中,由神经网络编码的模式被用作结合存储器(CAM)的地址,“神经元”本质上作为编码器和解码器的地址。然而,这种存储器组成的早期控制器是不可微的。

LSTM相关的可微存储结构

除了长短期记忆 (LSTM)之外,其他方法也为递归函数增加了可微记忆。例如:

  • 另一种称为神经堆栈机器的内存网络的可微压入和弹出操作[169][170]
  • 记忆网络,其中控制网络的外部可微存储在另一个网络的快速权重中[171]
  • LSTM的遗忘门[172]
  • 具有特殊输出单元的自连接RNN,用于以可微分的方式寻址和快速操纵RNN自身的权重(内部存储)[173][174]
  • 学习用无限的记忆进行转换[175]

神经图灵机

神经图灵机[176]将LSTM网络耦合到外部记忆资源,通过注意过程与外部记忆资源交互。组合系统类似于图灵机,但端到端是可微分的,允许它通过梯度下降有效地训练。初步结果表明,神经图灵机可以从输入和输出示例中推断出简单的算法,如复制、排序和关联回忆。 可微分神经计算机(DNC)是NTM的扩展。它超越了神经图灵机、长期短期记忆系统和序列处理任务的记忆网络。[177][178][179][180][181]

语义哈希

直接表示之前的经验和使用类似的经验来形成一个本地模型的方法通常被称为最近邻或者k-最近邻方法。[182]深度学习在语义哈希中很有用,[183]其中从大量文件中获得单词计数向量[184]来表示一个深度图模型。文档被映射到内存地址,使得语义相似的文档位于附近的地址。然后,通过访问与查询文档地址仅相差几位的所有地址,可以找到类似于查询文档的文档。与处理1000位地址的稀疏分布式存储器不同,语义哈希工作在传统计算机体系结构中的32或64位地址。

记忆网络

记忆网络[185][186]是结合了长期记忆的神经网络的另一个扩展。长期记忆可以读写,目的是将其用于预测。这些模型已经应用于问答 (QA)中,其中长期记忆有效地充当(动态)知识库,输出是文本响应。[187]加州大学洛杉矶分校萨缪利工程学院的一组电气和计算机工程师创建了一个物理人工神经网络,可以分析大量数据,并可以迅速识别物体。[188]

指针网络

在保持可训练性的同时,通过深化和参数约简,可以潜在地改进深度神经网络。虽然训练极深(例如100万层)的神经网络可能不实用,但像中央处理器一样的体系结构,例如指针网络[189]和神经随机存取机器[190]通过使用外部随机存取存储器和通常属于计算机体系结构的其他组件,例如寄存器、 ALU 和指针,克服这一限制。这种系统根据存储在存储单元和寄存器中的概率分布向量进行操作。因此,该模型是完全可微分的,并且端到端训练。这些模型的关键特征是它们的深度、短期记忆的大小和参数的数量可以独立改变——不像LSTM这样的模型,其参数的数量与记忆的大小呈二次增长。

编码器-解码器网络

编码器-解码器框架基于将高度结构化的输入映射到高度结构化输出的神经网络。这种方法出现在机器翻译的背景下,[191][192][193]其中输入和输出是两种自然语言的书面句子。在这项工作中,LSTM·RNN或美国有线电视新闻网被用作编码器来总结源句子,并使用条件RNN 语言模型对摘要进行解码以产生翻译。[194]这些系统共享构件:门控rnn和CNN以及训练有素的注意机制。

7.14 多层核机器

多层核机器(MKM)是通过弱非线性核的迭代应用来学习高度非线性函数的一种方法。他们使用核主成分分析 (KPCA),[195]作为深度学习的无监督贪婪分层预训练步骤的方法。[196]

  学习上一层   的表示,提取投影层   在核引入的特征域上的输出中的    个主分量(PC)。为了对每层更新后的表示进行降维,监督策略从KPCA提取的特征中选择信息最好的特征。过程是:

  •    个特征根据它们与类标签的互信息进行排序;
  • 对于不同的值K    ,计算 K-最近邻 (K-NN)的分类错误率,这里KNN仅使用关于验证集的最多信息量的    个特征;
  • 分类器达到最低错误率的情况下的    的值决定了要保留的特征数量。

KPCA方法作为MKM的构建单元存在一些缺点。

开发了一种更直接的使用内核机器进行深度学习的方法,用于口语理解。[197]主要思想是使用内核机器来近似具有无限数量隐藏单元的浅层神经网络,然后使用堆栈来拼接内核机器的输出和原始输入,以构建下一个更高级别的内核机器。深凸网络中的层数是整个系统的超参数,由交叉验证确定。

8 神经网络架构搜索编辑

神经网络架构搜索(NAS)使用机器学习来自动设计人工神经网络。网络连接存储的各种方法设计的网络与手工设计的系统相比效果非常好。基本的搜索算法是提出一个候选模型,根据数据集对其进行评估,并将结果用作反馈来教授NAS网络。[198]

9 使用编辑

使用人工神经网络需要了解它们的特性。

  • 模型的选择:这取决于数据表示和应用。过于复杂的模型会降低学习速度。
  • 学习算法:学习算法之间存在许多权衡。对于特定数据集的训练,几乎任何算法都可以与正确的超参数算法很好地配合使用。然而,选择和调整未知数据的训练算法需要大量的实验。
  • 鲁棒性:如果适当选择模型、成本函数和学习算法,得到的神经网络可以变得鲁棒。

人工神经网络功能属于以下大类:[来源请求]

  • 函数逼近或回归分析,包括时间序列预测、适应度逼近和建模。
  • 分类,包括模式和序列识别、新颖性检测和序贯决策制造。
  • 数据处理,包括过滤、聚类、盲源分离和压缩。
  • 机器人学,包括操纵器和假体。
  • 控制,包括计算机数控。

10 应用编辑

由于人工神经网络能够再现和建模非线性过程,因此在广泛的学科中有许多应用。

应用领域包括系统识别和控制(车辆控制、轨迹预测、[199] 过程控制,自然资源管理,量子化学,[200] 玩游戏,[201] 模式识别(雷达系统,人脸识别,信号分类,[202] 3D重建,[203]对象识别等)、序列识别(手势、语音、手写和印刷文本识别)、医学诊断、金融[204](例如自动交易系统)、数据挖掘、可视化、机器翻译、社交网络过滤[205]和垃圾邮件过滤。

人工神经网络已经用于诊断癌症,包括肺癌,[206] 前列腺癌,结肠直肠癌[207]并且仅使用细胞形状信息来区分高侵袭性癌细胞系和低侵袭性癌细胞系。[208][209]

人工神经网络已被用于加速遭受自然灾害的基础设施的可靠性分析[210][211]并预测地基沉降。[212]

人工神经网络还被用于在地球科学 : 水文学中建立黑盒模型,[213][214]海洋建模和海岸工程,[215][216]和地貌学。[217]

人工神经网络在网络安全方面也取得了一些成功,目的是区分合法活动和恶意活动。例如,机器学习已经被用于分类安卓恶意软件,[218]用于识别属于威胁行为者的域[219]并且用于检测构成安全风险的网址。[220]还在对设计用于渗透测试的人工神经网络系统进行研究,[221]为了检测僵尸网络,[222]信用卡欺诈,[223]网络入侵,还有潜在受感染的机器。

10.1 模型类型

许多类型的模型都被人们使用,它们在不同的抽象层次上定义,并对神经系统的不同方面进行建模。它们的范围从单个神经元的短期行为模型,[224]到神经电路的动力是如何从单个神经元之间的相互作用中产生的模型,最终到如何从代表完整子系统的抽象神经模块中产生行为的模型。这些模型包括神经系统的长期和短期可塑性模型,以及它们与学习和从单个神经元到系统层面的记忆之间的关系。

11 理论性质编辑

11.1 计算能力

多层感知器是通用函数逼近器,如通用逼近定理所证明。然而,关于所需神经元的数量、网络拓扑、权重和学习参数的证明并不是有帮助的。

具有有理值权重(与全精度实数值权重相反)的特定递归体系结构具有通用图灵机的全部能力,[225]使用有限数量的神经元和标准的线性连接。此外,对权重使用无理数会导致机器具有超图灵能力。[226]

11.2 容量

模型的“容量”属性大致对应于它们对任何给定函数建模的能力。它与网络中可以存储的信息量和复杂性有关。[来源请求]

11.3 收敛

模型可能不会始终收敛于一个解,首先是因为根据成本函数和模型,可能存在许多局部极小值。其次,所用的优化方法可能无法保证在远离任何局部最小值时收敛。第三,对于足够大的数据或参数,一些方法变得不切实际。然而,对于 CMAC 神经网络,引入了递归最小二乘算法进行训练,保证了该算法一步收敛。[227]

11.4 泛化和统计

目标是创建一个能很好地推广到没有见过的样本上的系统的应用程序,面临着过拟合的可能性。当网络容量明显超过所需的自由参数时,就会出现这种情况。有两种方法可以解决过拟合的问题。第一种是使用交叉验证和类似技术来检查过拟合的存在,并优化选择超参数以最小化泛化误差。第二是使用某种形式的正则化。这个概念出现在概率(贝叶斯)框架中,其中正则化可以通过选择比简单模型更大的先验概率来执行;而且在统计学习理论中,目标是使两个量最小化:“经验风险”和“结构风险”,这两个量大致对应于训练集上的误差和由于过拟合而导致的未知数据的预测误差。

神经网络的置信度分析

使用均方误差 (MSE)成本函数的监督神经网络可以使用形式统计方法来确定训练模型的置信度。验证集上的均方误差可以用作方差估计。然后,假设为正态分布,该值可用于计算网络输出的置信区间。只要输出概率分布保持不变并且网络不被修改,以这种方式进行的置信度分析在统计上是有效的。

通过在分类目标变量的神经网络输出层(或基于组件的神经网络中的softmax组件)上使用 softmax激活函数,即逻辑函数的推广,输出可以解释为后验概率。这在分类中非常有用,因为它给出了分类的确定性度量。

softmax激活函数是:

  

12 批评编辑

12.1 训练问题

对神经网络,尤其是机器人学中神经网络的一个常见批评是,它们需要太多的现实操作训练。潜在的解决方案包括随机打乱训练样本,方法是使用在按照样本更新网络连接时不需要太大步骤的数值优化算法,以及将样本分组为所谓的小批量(mini-batch)。提高训练效率和收敛能力一直是神经网络的一个研究领域。例如,通过为 CMAC 神经网络引入递归最小二乘算法,训练过程只需一步即可收敛。[227]

12.2 理论问题

一个根本的反对意见是,它们没有反映真实神经元的功能。反向传播是大多数人工神经网络的关键部分,尽管生物神经网络中不存在这种机制。[227]真正的神经元是如何编码信息的尚不清楚。随着传感器的激活,传感器神经元激发动作电位的频率更高,而当其相关的运动神经元接收动作电位的频率更高时,肌肉细胞的牵拉更强。[228]除了将信息从传感器神经元传递到运动神经元的情况之外,人们对生物神经网络处理信息的原理几乎一无所知。这是神经编码中积极研究的课题。

人工神经网络背后的动机不一定是严格复制神经功能,而是使用生物神经网络作为灵感。因此,人工神经网络的一个中心主张是,它体现了在处理信息过程中的新的和强大的一般原理。不幸的是,这些一般原理的定义并不清楚。人们经常声称它们是从网络本身中涌现出来的。这允许简单的统计关联(人工神经网络的基本功能)被描述为学习或识别。Alexander Dewdney 评论说,因此,人工神经网络具有“不劳而获的品质,它赋予了人们一种特殊的懒惰氛围,并且对这些计算系统到底有多好明显缺乏好奇心。没有人的手(或思想)干预;解决方案似乎是通过魔法找到的;似乎没有人学到任何东西”。[229]

根据大脑解剖学的报告,生物大脑同时使用浅层和深层回路,[230]表现出各种各样的不变性。温[231]认为大脑自我连线主要是根据信号统计,因此,串行级联不能捕捉所有主要的统计依赖性。

12.3 硬件问题

大型有效的神经网络需要大量的计算资源。[232]虽然大脑具有针对通过神经元的图处理信号的任务而定制的硬件,但是在冯·诺依曼体系结构上模拟,即使是简化的神经元也可能会迫使神经网络设计者为其连接填充数百万行的数据库 – 这会消耗大量的内存和存储空间。此外,设计者通常需要通过许多这些连接及其相关神经元传输信号 – 这通常必须与巨大的中央处理器处理能力和时间相匹配。

Schmidhuber 指出,神经网络在21世纪的复苏在很大程度上归功于硬件的进步:从1991年到2015年,计算能力,特别是由 GPU (在 GPU 上)提供的计算能力,已经增加了大约一百万倍,使得用标准反向传播算法训练比以前更深的网络是可行的。[233]使用FPGAs和GPU等加速器可以将培训时间从几个月减少到几天。[234][232]

神经形态工程通过构建非冯·诺依曼芯片来直接在电路中实现神经网络,从而直接解决硬件问题。另一个为神经网络处理优化的芯片被称为张量处理器,或TPU。[235]

12.4 应对批评的反例

反对德维尼立场的论点是,神经网络已经成功地用于解决许多复杂多样的任务,从自主飞行的飞机[236]、检测信用卡欺诈到掌握围棋。

科技作家罗杰·布里奇曼评论道:

例如,神经网络现在应用广泛,不仅因为它被人们捧上了天(但其他东西又何尝不是呢),而且你可以成功地创造一个网络而不需要明白它是怎么工作的:用一大堆数字描述了它的行为,而这些数字是“不清楚的,不可读的表格……作为科学来源是没有价值的”。

即使他坚决地认为科学并不是技术工程,Dewdney在设计神经网络的人不过是想当一个好的工程师的时候,公开批评神经网络是差劲的科学。虽然神经网络看起来是“不可读的表格”,但作为有用的机器,还是值得拥有的。[237]

虽然分析人工神经网络所学习到的东西是困难的,但是依然比分析生物神经网络要容易得多。此外,参与探索神经网络学习算法的研究人员正在逐步揭示使得机器学习成功的一般原则。例如,本地与非本地学习,浅架构与深架构。[238]

12.5 混合方法

混合模型(结合神经网络和符号方法)的倡导者声称,这种混合模型可以更好地捕捉人类大脑的机制。[239][240]

13 类型编辑

人工神经网络有许多变体。最简单的静态类型有一个或多个静态组件,包括单元数量、层数、单位权重和拓扑结构。动态类型允许在学习过程中改变其中的一个或多个单元或结构。后者要复杂得多,但可以缩短学习周期并产生更好的结果。有些类型允许/要求学习由操作员“监督”,而其他类型则独立操作。一些类型完全在硬件中运行,而另一些类型纯粹是软件,在通用计算机上运行。

14 画廊编辑

  • 单层的前馈人工神经网络。 箭头由       清晰地指向其他神经元。网络包含p个输入和q个输出。 在这个系统中,第q个输出      由公式      计算。

  • 两层的前馈神经网络

  • 人工神经网络

  • ANN的关系图

  • 有4个输入,6个中间层和2个输出的单层前馈神经网络。

  • 8个输入,2层中间层各8个神经元,2个输出的2层前馈人工神经网络。

  • CMAC神经网络的并行流水线结构。这种学习算法可以在一步内收敛。

参考文献

  • [1]

    ^McCulloch, Warren; Walter Pitts (1943). "A Logical Calculus of Ideas Immanent in Nervous Activity". Bulletin of Mathematical Biophysics. 5 (4): 115–133. doi:10.1007/BF02478259..

  • [2]

    ^Kleene, S.C. (1956). "Representation of Events in Nerve Nets and Finite Automata". Annals of Mathematics Studies (34). Princeton University Press. pp. 3–41. Retrieved 2017-06-17..

  • [3]

    ^Hebb, Donald (1949). The Organization of Behavior. New York: Wiley. ISBN 978-1-135-63190-1..

  • [4]

    ^Farley, B.G.; W.A. Clark (1954). "Simulation of Self-Organizing Systems by Digital Computer". IRE Transactions on Information Theory. 4 (4): 76–84. doi:10.1109/TIT.1954.1057468..

  • [5]

    ^Rochester, N.; J.H. Holland; L.H. Habit; W.L. Duda (1956). "Tests on a cell assembly theory of the action of the brain, using a large digital computer". IRE Transactions on Information Theory. 2 (3): 80–93. doi:10.1109/TIT.1956.1056810..

  • [6]

    ^Rosenblatt, F. (1958). "The Perceptron: A Probabilistic Model For Information Storage And Organization In The Brain". Psychological Review. 65 (6): 386–408. CiteSeerX 10.1.1.588.3775. doi:10.1037/h0042519. PMID 13602029..

  • [7]

    ^Werbos, P.J. (1975). Beyond Regression: New Tools for Prediction and Analysis in the Behavioral Sciences..

  • [8]

    ^David H. Hubel and Torsten N. Wiesel (2005). Brain and visual perception: the story of a 25-year collaboration. Oxford University Press US. p. 106. ISBN 978-0-19-517618-6..

  • [9]

    ^Ivakhnenko, A. G. (1973). Cybernetic Predicting Devices. CCM Information Corporation..

  • [10]

    ^Ivakhnenko, A. G.; Grigorʹevich Lapa, Valentin (1967). Cybernetics and forecasting techniques. American Elsevier Pub. Co..

  • [11]

    ^Minsky, Marvin; Papert, Seymour (1969). Perceptrons: An Introduction to Computational Geometry. MIT Press. ISBN 978-0-262-63022-1..

  • [12]

    ^Rumelhart, D.E; McClelland, James (1986). Parallel Distributed Processing: Explorations in the Microstructure of Cognition. Cambridge: MIT Press. ISBN 978-0-262-63110-5..

  • [13]

    ^Qian, N.; Sejnowski, T.J. (1988). Predicting the secondary structure of globular proteins using neural network models (PDF). Journal of Molecular Biology. 202. pp. 865–884. Qian1988..

  • [14]

    ^Rost, B.; Sander, C. (1993). Prediction of protein secondary structure at better than 70% accuracy (PDF). Journal of Molecular Biology. 232. pp. 584–599. Rost1993..

  • [15]

    ^J.翁安嘉和黄天成,“克雷斯纳:一种自适应生长的自组织神经网络”继续。神经网络国际联合会议马里兰州巴尔的摩,第一卷,第576-581页,1992年6月。.

  • [16]

    ^J.翁、安家和黄天舒,”使用Cresceptron进行学习识别和分割,”国际计算机视觉杂志,第25卷,第2期,第105-139页,1997年11月。.

  • [17]

    ^张秀坤·舍雷尔、安德烈亚斯·穆勒和斯文·贝肯克:“对象识别卷积体系结构中的池操作评估”在第20届国际会议上,人工神经网络,第92-101页,2010年。doi:10.1007/978-3-642-15825-4_10。.

  • [18]

    ^Hochreiter, S.; et al. (15 January 2001). "Gradient flow in recurrent nets: the difficulty of learning long-term dependencies". In Kolen, John F.; Kremer, Stefan C. A Field Guide to Dynamical Recurrent Networks. John Wiley & Sons. ISBN 978-0-7803-5369-5..

  • [19]

    ^J.施密休伯。,“利用历史压缩原理学习复杂、扩展的序列,”神经计算,4,第234-242页,1992年。.

  • [20]

    ^Sven Behnke (2003). Hierarchical Neural Networks for Image Interpretation (PDF). Lecture Notes in Computer Science. 2766. Springer..

  • [21]

    ^Smolensky, P. (1986). "Information processing in dynamical systems: Foundations of harmony theory.". In D. E. Rumelhart; J. L. McClelland; PDP Research Group. Parallel Distributed Processing: Explorations in the Microstructure of Cognition. 1. pp. 194–281. ISBN 9780262680530..

  • [22]

    ^Hinton, G. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947..

  • [23]

    ^Ng, Andrew; Dean, Jeff (2012). "Building High-level Features Using Large Scale Unsupervised Learning". arXiv:1112.6209 [cs.LG]..

  • [24]

    ^Yang, J. J.; Pickett, M. D.; Li, X. M.; Ohlberg, D. A. A.; Stewart, D. R.; Williams, R. S. (2008). "Memristive switching mechanism for metal/oxide/metal nanodevices". Nat. Nanotechnol. 3 (7): 429–433. doi:10.1038/nnano.2008.160. PMID 18654568..

  • [25]

    ^Strukov, D. B.; Snider, G. S.; Stewart, D. R.; Williams, R. S. (2008). "The missing memristor found". Nature. 453 (7191): 80–83. Bibcode:2008Natur.453...80S. doi:10.1038/nature06932. PMID 18451858..

  • [26]

    ^Cireşan, Dan Claudiu; Meier, Ueli; Gambardella, Luca Maria; Schmidhuber, Jürgen (2010-09-21). "Deep, Big, Simple Neural Nets for Handwritten Digit Recognition". Neural Computation. 22 (12): 3207–3220. arXiv:1003.0358. doi:10.1162/neco_a_00052. ISSN 0899-7667. PMID 20858131..

  • [27]

    ^2012库兹韦尔人工智能访谈随着尤尔根·施密休伯关于他的深度学习团队在2009-2012年赢得的八场比赛.

  • [28]

    ^"How bio-inspired deep learning keeps winning competitions | KurzweilAI". www.kurzweilai.net. Retrieved 2017-06-16..

  • [29]

    ^格雷夫斯,亚历克斯;和于尔根·施密休伯;基于多维递归神经网络的离线手写识别,在约西亚的本吉奥;舒尔曼斯,戴尔;约翰·拉夫蒂;克里斯·威廉姆斯;和卡洛塔,阿伦(编辑。),神经信息处理系统进展22 (NIPS'22),2009年12月7-10日,不列颠哥伦比亚省温哥华,神经信息处理系统(NIPS)基金会,2009年,第545-552页。.

  • [30]

    ^Graves, A.; Liwicki, M.; Fernandez, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (2009). "A Novel Connectionist System for Improved Unconstrained Handwriting Recognition" (PDF). IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855–868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. PMID 19299860..

  • [31]

    ^Graves, A.; Liwicki, M.; Fernández, S.; Bertolami, R.; Bunke, H.; Schmidhuber, J. (May 2009). "A Novel Connectionist System for Unconstrained Handwriting Recognition". IEEE Transactions on Pattern Analysis and Machine Intelligence. 31 (5): 855–868. CiteSeerX 10.1.1.139.4502. doi:10.1109/tpami.2008.137. ISSN 0162-8828. PMID 19299860..

  • [32]

    ^Cireşan, Dan; Meier, Ueli; Masci, Jonathan; Schmidhuber, Jürgen (August 2012). "Multi-column deep neural network for traffic sign classification". Neural Networks. Selected Papers from IJCNN 2011. 32: 333–338. CiteSeerX 10.1.1.226.8219. doi:10.1016/j.neunet.2012.02.023. PMID 22386783..

  • [33]

    ^Ciresan, Dan; Giusti, Alessandro; Gambardella, Luca M.; Schmidhuber, Juergen (2012). Pereira, F.; Burges, C. J. C.; Bottou, L.; Weinberger, K. Q., eds. Advances in Neural Information Processing Systems 25 (PDF). Curran Associates, Inc. pp. 2843–2851..

  • [34]

    ^Ciresan, Dan; Meier, U.; Schmidhuber, J. (June 2012). Multi-column deep neural networks for image classification. 2012 IEEE Conference on Computer Vision and Pattern Recognition. pp. 3642–3649. arXiv:1202.2745. CiteSeerX 10.1.1.300.3283. doi:10.1109/cvpr.2012.6248110. ISBN 978-1-4673-1228-8..

  • [35]

    ^Ciresan, D. C.; Meier, U.; Masci, J.; Gambardella, L. M.; Schmidhuber, J. (2011). "Flexible, High Performance Convolutional Neural Networks for Image Classification" (PDF). International Joint Conference on Artificial Intelligence. doi:10.5591/978-1-57735-516-8/ijcai11-210..

  • [36]

    ^Krizhevsky, Alex; Sutskever, Ilya; Hinton, Geoffry (2012). "ImageNet Classification with Deep Convolutional Neural Networks" (PDF). NIPS 2012: Neural Information Processing Systems, Lake Tahoe, Nevada..

  • [37]

    ^Fukushima, K. (1980). "Neocognitron: A self-organizing neural network model for a mechanism of pattern recognition unaffected by shift in position". Biological Cybernetics. 36 (4): 93–202. doi:10.1007/BF00344251. PMID 7370364..

  • [38]

    ^Riesenhuber, M; Poggio, T (1999). "Hierarchical models of object recognition in cortex". Nature Neuroscience. 2 (11): 1019–1025. doi:10.1038/14819. PMID 10526343..

  • [39]

    ^Hinton, Geoffrey (2009-05-31). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947. ISSN 1941-6016..

  • [40]

    ^Markoff, John (November 23, 2012). "Scientists See Promise in Deep-Learning Programs". New York Times..

  • [41]

    ^Martines, H.; Bengio, Y.; Yannakakis, G. N. (2013). "Learning Deep Physiological Models of Affect". IEEE Computational Intelligence Magazine (Submitted manuscript). 8 (2): 20–33. doi:10.1109/mci.2013.2247823..

  • [42]

    ^J.翁,“为什么我们通过了‘神经网络不好抽象’?,"自然智能:INNS杂志,第1卷,第1期,第13-22页,2011年。.

  • [43]

    ^Z.吉、翁和普罗霍罗夫,“哪里-什么网络1:哪里和什么通过自上而下的连接相互帮助”继续。第七届发展与学习国际会议(2008年,ICDL)加利福尼亚州蒙特雷,2008年8月9-12日,第1-6页。.

  • [44]

    ^X.吴、郭、翁,”颅骨封闭自主发展:WWN-7量表,”继续。国际大脑思维会议,2013年7月27-28日,东兰辛,第1-9页。.

  • [45]

    ^Zell, Andreas (1994). "chapter 5.2". Simulation Neuronaler Netze [Simulation of Neural Networks] (in German) (1st ed.). Addison-Wesley. ISBN 978-3-89319-554-1.CS1 maint: Unrecognized language (link).

  • [46]

    ^Abbod, Maysam F (2007). "Application of Artificial Intelligence to the Management of Urological Cancer". The Journal of Urology. 178 (4): 1150–1156. doi:10.1016/j.juro.2007.05.122. PMID 17698099..

  • [47]

    ^DAWSON, CHRISTIAN W (1998). "An artificial neural network approach to rainfall-runoff modelling". Hydrological Sciences Journal. 43 (1): 47–66. doi:10.1080/02626669809492102..

  • [48]

    ^"The Machine Learning Dictionary"..

  • [49]

    ^Dreyfus, Stuart E. (1990-09-01). "Artificial neural networks, back propagation, and the Kelley-Bryson gradient procedure". Journal of Guidance, Control, and Dynamics. 13 (5): 926–928. Bibcode:1990JGCD...13..926D. doi:10.2514/3.25422. ISSN 0731-5090..

  • [50]

    ^Eiji Mizutani,Stuart Dreyfus ,Kenichi Nishio (2000)。从凯利-布赖森最优控制梯度公式推导MLP反向传播及其应用。IEEE神经网络国际联合会议记录(IJCNN 2000),意大利科莫,2000年7月。在线.

  • [51]

    ^Kelley, Henry J. (1960). "Gradient theory of optimal flight paths". ARS Journal. 30 (10): 947–954. doi:10.2514/8.5282..

  • [52]

    ^Arthur E. Bryson(1961年,4月)。优化多阶段分配过程的梯度法哈佛大学学报数字计算机及其应用研讨会。.

  • [53]

    ^Dreyfus, Stuart (1962). "The numerical solution of variational problems". Journal of Mathematical Analysis and Applications. 5 (1): 30–45. doi:10.1016/0022-247x(62)90004-5..

  • [54]

    ^Russell, Stuart J.; Norvig, Peter (2010). Artificial Intelligence A Modern Approach. Prentice Hall. p. 578. ISBN 978-0-13-604259-4. The most popular method for learning in multilayer networks is called Back-propagation..

  • [55]

    ^Bryson, Arthur Earl (1969). Applied Optimal Control: Optimization, Estimation and Control. Blaisdell Publishing Company or Xerox College Publishing. p. 481..

  • [56]

    ^Seppo Linnainmaa (1970)。将算法的累积舍入误差表示为局部舍入误差的泰勒展开。硕士论文(芬兰语),赫尔辛基大学,6-7。.

  • [57]

    ^Linnainmaa, Seppo (1976). "Taylor expansion of the accumulated rounding error". BIT Numerical Mathematics. 16 (2): 146–160. doi:10.1007/bf01931367..

  • [58]

    ^Griewank, Andreas (2012). "Who Invented the Reverse Mode of Differentiation?" (PDF). Documenta Matematica, Extra Volume ISMP: 389–400. Archived from the original (PDF) on 21 July 2017. Retrieved 27 June 2017..

  • [59]

    ^Griewank, Andreas; Walther, Andrea (2008). Evaluating Derivatives: Principles and Techniques of Algorithmic Differentiation, Second Edition. SIAM. ISBN 978-0-89871-776-1..

  • [60]

    ^Dreyfus, Stuart (1973). "The computational solution of optimal control problems with time lag". IEEE Transactions on Automatic Control. 18 (4): 383–385. doi:10.1109/tac.1973.1100330..

  • [61]

    ^Paul Werbos(1974年)。超越回归:行为科学中预测和分析的新工具。哈佛大学博士论文。.

  • [62]

    ^Werbos, Paul (1982). "Applications of advances in nonlinear sensitivity analysis" (PDF). System modeling and optimization. Springer. pp. 762–770..

  • [63]

    ^Rumelhart, David E.; Hinton, Geoffrey E.; Williams, Ronald J. (1986). "Learning representations by back-propagating errors". Nature. 323 (6088): 533–536. Bibcode:1986Natur.323..533R. doi:10.1038/323533a0..

  • [64]

    ^Eric A. Wan (1993年)。" 使用带有内部延迟线的连接网络进行时间序列预测 . "在复杂性科学中的圣菲研究所研究会议录,15:第195页。艾迪生韦斯利出版公司.

  • [65]

    ^Hinton, G.; Deng, L.; Yu, D.; Dahl, G. E.; Mohamed, A. r; Jaitly, N.; Senior, A.; Vanhoucke, V.; Nguyen, P. (November 2012). "Deep Neural Networks for Acoustic Modeling in Speech Recognition: The Shared Views of Four Research Groups". IEEE Signal Processing Magazine. 29 (6): 82–97. Bibcode:2012ISPM...29...82H. doi:10.1109/msp.2012.2205597. ISSN 1053-5888..

  • [66]

    ^Huang, Guang-Bin; Zhu, Qin-Yu; Siew, Chee-Kheong (2006). "Extreme learning machine: theory and applications". Neurocomputing. 70 (1): 489–501. CiteSeerX 10.1.1.217.3692. doi:10.1016/j.neucom.2005.12.126..

  • [67]

    ^Widrow, Bernard; et al. (2013). "The no-prop algorithm: A new learning algorithm for multilayer neural networks". Neural Networks. 37: 182–188. doi:10.1016/j.neunet.2012.09.020. PMID 23140797..

  • [68]

    ^Ollivier, Yann; Charpiat, Guillaume (2015). "Training recurrent networks without backtracking". arXiv:1507.07680 [cs.NE]..

  • [69]

    ^ESANN。2009.

  • [70]

    ^Hinton, G. E. (2010). "A Practical Guide to Training Restricted Boltzmann Machines". Tech. Rep. UTML TR 2010-003..

  • [71]

    ^Ojha, Varun Kumar; Abraham, Ajith; Snášel, Václav (2017-04-01). "Metaheuristic design of feedforward neural networks: A review of two decades of research". Engineering Applications of Artificial Intelligence. 60: 97–116. arXiv:1705.05584. doi:10.1016/j.engappai.2017.01.013..

  • [72]

    ^Dominic, S.; Das, R.; Whitley, D.; Anderson, C. (July 1991). "Genetic reinforcement learning for neural networks". IJCNN-91-Seattle International Joint Conference on Neural Networks. IJCNN-91-Seattle International Joint Conference on Neural Networks. Seattle, Washington, USA: IEEE. doi:10.1109/IJCNN.1991.155315. ISBN 0-7803-0164-1..

  • [73]

    ^Hoskins, J.C.; Himmelblau, D.M. (1992). "Process control via artificial neural networks and reinforcement learning". Computers & Chemical Engineering. 16 (4): 241–251. doi:10.1016/0098-1354(92)80045-B..

  • [74]

    ^Bertsekas, D.P.; Tsitsiklis, J.N. (1996). Neuro-dynamic programming. Athena Scientific. p. 512. ISBN 978-1-886529-10-6..

  • [75]

    ^Secomandi, Nicola (2000). "Comparing neuro-dynamic programming algorithms for the vehicle routing problem with stochastic demands". Computers & Operations Research. 27 (11–12): 1201–1225. CiteSeerX 10.1.1.392.4034. doi:10.1016/S0305-0548(99)00146-X..

  • [76]

    ^de Rigo, D.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E.; Zenesi, P. (2001). "Neuro-dynamic programming for the efficient management of reservoir networks". Proceedings of MODSIM 2001, International Congress on Modelling and Simulation. MODSIM 2001, International Congress on Modelling and Simulation. Canberra, Australia: Modelling and Simulation Society of Australia and New Zealand. doi:10.5281/zenodo.7481. ISBN 0-867405252. |access-date= requires |url= (help).

  • [77]

    ^Damas, M.; Salmeron, M.; Diaz, A.; Ortega, J.; Prieto, A.; Olivares, G. (2000). "Genetic algorithms and neuro-dynamic programming: application to water supply networks". Proceedings of 2000 Congress on Evolutionary Computation. 2000 Congress on Evolutionary Computation. La Jolla, California, USA: IEEE. doi:10.1109/CEC.2000.870269. ISBN 0-7803-6375-2..

  • [78]

    ^Deng, Geng; Ferris, M.C. (2008). Neuro-dynamic programming for fractionated radiotherapy planning. Springer Optimization and Its Applications. 12. pp. 47–70. CiteSeerX 10.1.1.137.8288. doi:10.1007/978-0-387-73299-2_3. ISBN 978-0-387-73298-5..

  • [79]

    ^M. Forouzanfar; H. R. Dajani; V. Z. Groza; M. Bolic & S. Rajan (July 2010). Comparison of Feed-Forward Neural Network Training Algorithms for Oscillometric Blood Pressure Estimation (PDF). 4th Int. Workshop Soft Computing Applications. Arad, Romania: IEEE..

  • [80]

    ^de Rigo, D.; Castelletti, A.; Rizzoli, A. E.; Soncini-Sessa, R.; Weber, E. (January 2005). "A selective improvement technique for fastening Neuro-Dynamic Programming in Water Resources Network Management". In Pavel Zítek. Proceedings of the 16th IFAC World Congress – IFAC-PapersOnLine. 16th IFAC World Congress. 16. Prague, Czech Republic: IFAC. doi:10.3182/20050703-6-CZ-1902.02172. ISBN 978-3-902661-75-3. Retrieved 30 December 2011..

  • [81]

    ^Ferreira, C. (2006). "Designing Neural Networks Using Gene Expression Programming" (PDF). In A. Abraham, B. de Baets, M. Köppen, and B. Nickolay, eds., Applied Soft Computing Technologies: The Challenge of Complexity, pages 517–536, Springer-Verlag..

  • [82]

    ^Da, Y.; Xiurun, G. (July 2005). T. Villmann, ed. An improved PSO-based ANN with simulated annealing technique. New Aspects in Neurocomputing: 11th European Symposium on Artificial Neural Networks. Elsevier. doi:10.1016/j.neucom.2004.07.002..

  • [83]

    ^Wu, J.; Chen, E. (May 2009). Wang, H.; Shen, Y.; Huang, T.; Zeng, Z., eds. A Novel Nonparametric Regression Ensemble for Rainfall Forecasting Using Particle Swarm Optimization Technique Coupled with Artificial Neural Network. 6th International Symposium on Neural Networks, ISNN 2009. Springer. doi:10.1007/978-3-642-01513-7-6. ISBN 978-3-642-01215-0..

  • [84]

    ^连续CMAC-QRLS及其脉动阵列神经处理快报22.1(2005):1–16。.

  • [85]

    ^保罗·沃博斯(1994)。反向传播的根源。从有序导数到神经网络和政治预测。纽约州纽约市:约翰·威利父子公司.

  • [86]

    ^Li, Y.; Fu, Y.; Li, H.; Zhang, S. W. (2009-06-01). The Improved Training Algorithm of Back Propagation Neural Network with Self-adaptive Learning Rate. 2009 International Conference on Computational Intelligence and Natural Computing. 1. pp. 73–76. doi:10.1109/CINC.2009.111. ISBN 978-0-7695-3645-3..

  • [87]

    ^Ivakhnenko, Alexey Grigorevich (1968). "The group method of data handling – a rival of the method of stochastic approximation". Soviet Automatic Control. 13 (3): 43–55..

  • [88]

    ^Ivakhnenko, Alexey (1971). "Polynomial theory of complex systems". IEEE Transactions on Systems, Man and Cybernetics (4) (4): 364–378. doi:10.1109/TSMC.1971.4308320..

  • [89]

    ^Kondo, T.; Ueno, J. (2008). "Multi-layered GMDH-type neural network self-selecting optimum neural network architecture and its application to 3-dimensional medical image recognition of blood vessels". International Journal of Innovative Computing, Information and Control. 4 (1): 175–187..

  • [90]

    ^J.翁亚杰和黄天思,“从二维图像中学习三维物体的识别和分割,”继续。第四届国际会议。计算机视觉,德国柏林,第121-128页,1993年5月。.

  • [91]

    ^LeCun等等。,“反向传播在手写邮政编码识别中的应用,”神经计算,1,第541-551页,1989年。.

  • [92]

    ^扬·勒丘恩 (2016)。深度学习幻灯片在线.

  • [93]

    ^"Unsupervised Feature Learning and Deep Learning Tutorial"..

  • [94]

    ^Szegedy, Christian; Liu, Wei; Jia, Yangqing; Sermanet, Pierre; Reed, Scott; Anguelov, Dragomir; Erhan, Dumitru; Vanhoucke, Vincent; Rabinovich, Andrew (2014). Going Deeper with Convolutions. Computing Research Repository. p. 1. arXiv:1409.4842. doi:10.1109/CVPR.2015.7298594. ISBN 978-1-4673-6964-0..

  • [95]

    ^Ran, Lingyan; Zhang, Yanning; Zhang, Qilin; Yang, Tao (2017-06-12). "Convolutional Neural Network-Based Robot Navigation Using Uncalibrated Spherical Images" (PDF). Sensors. 17 (6): 1341. doi:10.3390/s17061341. ISSN 1424-8220. PMC 5492478. PMID 28604624..

  • [96]

    ^Hinton, Geoffrey E.; Krizhevsky, Alex; Wang, Sida D. (2011), "Transforming Auto-Encoders", Lecture Notes in Computer Science, Springer Berlin Heidelberg, pp. 44–51, CiteSeerX 10.1.1.220.5099, doi:10.1007/978-3-642-21735-7_6, ISBN 9783642217340.

  • [97]

    ^Hochreiter, Sepp; Schmidhuber, Jürgen (1997-11-01). "Long Short-Term Memory". Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735. ISSN 0899-7667..

  • [98]

    ^"Learning Precise Timing with LSTM Recurrent Networks (PDF Download Available)". Crossref Listing of Deleted Dois. 1: 115–143. 2000. doi:10.1162/153244303768966139. Retrieved 2017-06-13..

  • [99]

    ^Schmidhuber, J. (2015). "Deep Learning in Neural Networks: An Overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637..

  • [100]

    ^Graves, Alex; Fernández, Santiago; Gomez, Faustino (2006). "Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks". In Proceedings of the International Conference on Machine Learning, ICML 2006: 369–376. CiteSeerX 10.1.1.75.6306..

  • [101]

    ^Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). "Sequence labelling in structured domains with hierarchical recurrent neural networks". In Proc. 20th Int. Joint Conf. On Artificial In℡ligence, Ijcai 2007: 774–779. CiteSeerX 10.1.1.79.1887..

  • [102]

    ^Graves, Alex; Eck, Douglas; Beringer, Nicole; Schmidhuber, Jürgen (2003). "Biologically Plausible Speech Recognition with LSTM Neural Nets" (PDF). 1st Intl. Workshop on Biologically Inspired Approaches to Advanced Information Technology, Bio-ADIT 2004, Lausanne, Switzerland. pp. 175–184..

  • [103]

    ^Fernández, Santiago; Graves, Alex; Schmidhuber, Jürgen (2007). An Application of Recurrent Neural Networks to Discriminative Keyword Spotting. Proceedings of the 17th International Conference on Artificial Neural Networks. ICANN'07. Berlin, Heidelberg: Springer-Verlag. pp. 220–229. ISBN 978-3540746935..

  • [104]

    ^Graves, Alex; Schmidhuber, Jürgen (2009). Bengio, Yoshua; Schuurmans, Dale; Lafferty, John; Williams, Chris editor-K. I.; Culotta, Aron, eds. "Offline Handwriting Recognition with Multidimensional Recurrent Neural Networks". Neural Information Processing Systems (NIPS) Foundation. Curran Associates, Inc: 545–552..

  • [105]

    ^Sak, Hasim; Senior, Andrew; Beaufays, Francoise (2014). "Long Short-Term Memory recurrent neural network architectures for large scale acoustic modeling" (PDF)..

  • [106]

    ^Li, Xiangang; Wu, Xihong (2014-10-15). "Constructing Long Short-Term Memory based Deep Recurrent Neural Networks for Large Vocabulary Speech Recognition". arXiv:1410.4281 [cs.CL]..

  • [107]

    ^Fan, Y.; Qian, Y.; Xie, F.; Soong, F. K. (2014). "TTS synthesis with bidirectional LSTM based Recurrent Neural Networks". Proceedings of the Annual Conference of the International Speech Communication Association, Interspeech: 1964–1968. Retrieved 2017-06-13..

  • [108]

    ^Schmidhuber, Jürgen (2015). "Deep Learning". Scholarpedia. 10 (11): 32832. Bibcode:2015SchpJ..1032832S. doi:10.4249/scholarpedia.32832..

  • [109]

    ^Fan, Bo; Wang, Lijuan; Soong, Frank K.; Xie, Lei (2015). "Photo-Real Talking Head with Deep Bidirectional LSTM" (PDF). Proceedings of ICASSP..

  • [110]

    ^Sak, Haşim; Senior, Andrew; Rao, Kanishka; Beaufays, Françoise; Schalkwyk, Johan (September 2015). "Google voice search: faster and more accurate"..

  • [111]

    ^Gers, Felix A.; Schmidhuber, Jürgen (2001). "LSTM Recurrent Networks Learn Simple Context Free and Context Sensitive Languages". IEEE Transactions on Neural Networks. 12 (6): 1333–1340. doi:10.1109/72.963769. PMID 18249962..

  • [112]

    ^Schmidhuber, Juergen (2018). "Video-based Sign Language Recognition without Temporal Segmentation". arXiv:1801.10111 [cs.CV]..

  • [113]

    ^Sutskever, L.; Vinyals, O.; Le, Q. (2014). "Sequence to Sequence Learning with Neural Networks" (PDF). NIPS'14 Proceedings of the 27th International Conference on Neural Information Processing Systems. 2: 3104–3112. arXiv:1409.3215. Bibcode:2014arXiv1409.3215S..

  • [114]

    ^Jozefowicz, Rafal; Vinyals, Oriol; Schuster, Mike; Shazeer, Noam; Wu, Yonghui (2016-02-07). "Exploring the Limits of Language Modeling". arXiv:1602.02410 [cs.CL]..

  • [115]

    ^Gillick, Dan; Brunk, Cliff; Vinyals, Oriol; Subramanya, Amarnag (2015-11-30). "Multilingual Language Processing From Bytes". arXiv:1512.00103 [cs.CL]..

  • [116]

    ^Vinyals, Oriol; Toshev, Alexander; Bengio, Samy; Erhan, Dumitru (2014-11-17). "Show and Tell: A Neural Image Caption Generator". arXiv:1411.4555 [cs.CV]..

  • [117]

    ^Gallicchio, Claudio; Micheli, Alessio; Pedrelli, Luca (2017). "Deep reservoir computing: A critical experimental analysis". Neurocomputing. 268: 87–99. doi:10.1016/j.neucom.2016.12.089..

  • [118]

    ^Gallicchio, Claudio; Micheli, Alessio (2017). "Echo State Property of Deep Reservoir Computing Networks". Cognitive Computation. 9 (3): 337–350. doi:10.1007/s12559-017-9461-9. ISSN 1866-9956..

  • [119]

    ^Hinton, G.E. (2009). "Deep belief networks". Scholarpedia. 4 (5): 5947. Bibcode:2009SchpJ...4.5947H. doi:10.4249/scholarpedia.5947..

  • [120]

    ^Larochelle, Hugo; Erhan, Dumitru; Courville, Aaron; Bergstra, James; Bengio, Yoshua (2007). An Empirical Evaluation of Deep Architectures on Problems with Many Factors of Variation. Proceedings of the 24th International Conference on Machine Learning. ICML '07. New York, NY, USA: ACM. pp. 473–480. CiteSeerX 10.1.1.77.3242. doi:10.1145/1273496.1273556. ISBN 9781595937933..

  • [121]

    ^Graupe, Daniel (2013). Principles of Artificial Neural Networks. World Scientific. pp. 1–. ISBN 978-981-4522-74-8..

  • [122]

    ^A US 5920852 AD. Graupe," Large memory storage and retrieval (LAMSTAR) network, April 1996.

  • [123]

    ^D.Graupe,“人工神经网络原理”第三版,World Scientific出版社,2013年,页 203–274。.

  • [124]

    ^Nigam, Vivek Prakash; Graupe, Daniel (2004-01-01). "A neural-network-based detection of epilepsy". Neurological Research. 26 (1): 55–60. doi:10.1179/016164104773026534. ISSN 0161-6412. PMID 14977058..

  • [125]

    ^Waxman, Jonathan A.; Graupe, Daniel; Carley, David W. (2010-04-01). "Automated Prediction of Apnea and Hypopnea, Using a LAMSTAR Artificial Neural Network". American Journal of Respiratory and Critical Care Medicine. 181 (7): 727–733. doi:10.1164/rccm.200907-1146oc. ISSN 1073-449X. PMID 20019342..

  • [126]

    ^Graupe, D.; Graupe, M. H.; Zhong, Y.; Jackson, R. K. (2008). "Blind adaptive filtering for non-invasive extraction of the fetal electrocardiogram and its non-stationarities". Proc. Inst. Mech. Eng. H. 222 (8): 1221–1234. doi:10.1243/09544119jeim417. PMID 19143416..

  • [127]

    ^Graupe 2013,第240–253页.

  • [128]

    ^Graupe, D.; Abon, J. (2002). "A Neural Network for Blind Adaptive Filtering of Unknown Noise from Speech". Intelligent Engineering Systems Through Artificial Neural Networks. 12: 683–688. Retrieved 2017-06-14..

  • [129]

    ^D.Graupe,“人工神经网络原理,第三版”,World Scientific出版社,2013年,页 253–274。.

  • [130]

    ^Girado, J. I.; Sandin, D. J.; DeFanti, T. A. (2003). "Real-time camera-based face detection using a modified LAMSTAR neural network system". Proc. SPIE 5015, Applications of Artificial Neural Networks in Image Processing VIII. Applications of Artificial Neural Networks in Image Processing VIII. 5015: 36–46. Bibcode:2003SPIE.5015...36G. doi:10.1117/12.477405..

  • [131]

    ^Venkatachalam, V; Selvan, S. (2007). "Intrusion Detection using an Improved Competitive Learning Lamstar Network". International Journal of Computer Science and Network Security. 7 (2): 255–263..

  • [132]

    ^Graupe, D.; Smollack, M. (2007). "Control of unstable nonlinear and nonstationary systems using LAMSTAR neural networks". ResearchGate. Proceedings of 10th IASTED on Intelligent Control, Sect.592. pp. 141–144. Retrieved 2017-06-14..

  • [133]

    ^Graupe, Daniel (7 July 2016). Deep Learning Neural Networks: Design and Case Studies. World Scientific Publishing Co Inc. pp. 57–110. ISBN 978-981-314-647-1..

  • [134]

    ^Graupe, D.; Kordylewski, H. (August 1996). Network based on SOM (Self-Organizing-Map) modules combined with statistical decision tools. Proceedings of the 39th Midwest Symposium on Circuits and Systems. 1. pp. 471–474 vol.1. doi:10.1109/mwscas.1996.594203. ISBN 978-0-7803-3636-0..

  • [135]

    ^Graupe, D.; Kordylewski, H. (1998-03-01). "A Large Memory Storage and Retrieval Neural Network for Adaptive Retrieval and Diagnosis". International Journal of Software Engineering and Knowledge Engineering. 08 (1): 115–138. doi:10.1142/s0218194098000091. ISSN 0218-1940..

  • [136]

    ^Kordylewski, H.; Graupe, D; Liu, K. (2001). "A novel large-memory neural network as an aid in medical diagnosis applications". IEEE Transactions on Information Technology in Biomedicine. 5 (3): 202–209. doi:10.1109/4233.945291..

  • [137]

    ^Schneider, N.C.; Graupe (2008). "A modified LAMSTAR neural network and its applications". International Journal of Neural Systems. 18 (4): 331–337. doi:10.1142/s0129065708001634. PMID 18763732..

  • [138]

    ^Graupe 2013,第217页.

  • [139]

    ^Vincent, Pascal; Larochelle, Hugo; Lajoie, Isabelle; Bengio, Yoshua; Manzagol, Pierre-Antoine (2010). "Stacked Denoising Autoencoders: Learning Useful Representations in a Deep Network with a Local Denoising Criterion". The Journal of Machine Learning Research. 11: 3371–3408..

  • [140]

    ^Ballard, Dana H. (1987). "Modular learning in neural networks" (PDF). Proceedings of AAAI. pp. 279–284. Archived from the original (PDF) on 2015-10-16..

  • [141]

    ^Deng, Li; Yu, Dong; Platt, John (2012). "Scalable stacking and learning for building deep architectures" (PDF). 2012 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP): 2133–2136..

  • [142]

    ^Deng, Li; Yu, Dong (2011). "Deep Convex Net: A Scalable Architecture for Speech Pattern Classification" (PDF). Proceedings of the Interspeech: 2285–2288..

  • [143]

    ^David, Wolpert (1992). "Stacked generalization". Neural Networks. 5 (2): 241–259. CiteSeerX 10.1.1.133.8090. doi:10.1016/S0893-6080(05)80023-1..

  • [144]

    ^Bengio, Y. (2009-11-15). "Learning Deep Architectures for AI". Foundations and Trends in Machine Learning (in English). 2 (1): 1–127. CiteSeerX 10.1.1.701.9550. doi:10.1561/2200000006. ISSN 1935-8237.CS1 maint: Unrecognized language (link).

  • [145]

    ^Hutchinson, Brian; Deng, Li; Yu, Dong (2012). "Tensor deep stacking networks". IEEE Transactions on Pattern Analysis and Machine Intelligence. 1–15 (8): 1944–1957. doi:10.1109/tpami.2012.268..

  • [146]

    ^Hinton, Geoffrey; Salakhutdinov, Ruslan (2006). "Reducing the Dimensionality of Data with Neural Networks". Science. 313 (5786): 504–507. Bibcode:2006Sci...313..504H. doi:10.1126/science.1127647. PMID 16873662..

  • [147]

    ^Dahl, G.; Yu, D.; Deng, L.; Acero, A. (2012). "Context-Dependent Pre-Trained Deep Neural Networks for Large-Vocabulary Speech Recognition". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 30–42. CiteSeerX 10.1.1.227.8990. doi:10.1109/tasl.2011.2134090..

  • [148]

    ^Mohamed, Abdel-rahman; Dahl, George; Hinton, Geoffrey (2012). "Acoustic Modeling Using Deep Belief Networks". IEEE Transactions on Audio, Speech, and Language Processing. 20 (1): 14–22. CiteSeerX 10.1.1.338.2670. doi:10.1109/tasl.2011.2109382..

  • [149]

    ^Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "A Spike and Slab Restricted Boltzmann Machine" (PDF). JMLR: Workshop and Conference Proceeding. 15: 233–241..

  • [150]

    ^Courville, Aaron; Bergstra, James; Bengio, Yoshua (2011). "Unsupervised Models of Images by Spike-and-Slab RBMs". Proceedings of the 28th International Conference on Machine Learning (PDF). 10. pp. 1–8..

  • [151]

    ^Mitchell, T; Beauchamp, J (1988). "Bayesian Variable Selection in Linear Regression". Journal of the American Statistical Association. 83 (404): 1023–1032. doi:10.1080/01621459.1988.10478694..

  • [152]

    ^Hinton, G. E.; Osindero, S.; Teh, Y. (2006). "A fast learning algorithm for deep belief nets" (PDF). Neural Computation. 18 (7): 1527–1554. CiteSeerX 10.1.1.76.1541. doi:10.1162/neco.2006.18.7.1527. PMID 16764513..

  • [153]

    ^Larochelle, Hugo; Bengio, Yoshua; Louradour, Jerdme; Lamblin, Pascal (2009). "Exploring Strategies for Training Deep Neural Networks". The Journal of Machine Learning Research. 10: 1–40..

  • [154]

    ^Coates, Adam; Carpenter, Blake (2011). "Text Detection and Character Recognition in Scene Images with Unsupervised Feature Learning" (PDF): 440–445..

  • [155]

    ^Lee, Honglak; Grosse, Roger (2009). Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations. Proceedings of the 26th Annual International Conference on Machine Learning. pp. 1–8. CiteSeerX 10.1.1.149.6800. doi:10.1145/1553374.1553453. ISBN 9781605585161..

  • [156]

    ^Lin, Yuanqing; Zhang, Tong (2010). "Deep Coding Network" (PDF). Advances in Neural . . .: 1–9..

  • [157]

    ^Ranzato, Marc Aurelio; Boureau, Y-Lan (2007). "Sparse Feature Learning for Deep Belief Networks" (PDF). Advances in Neural Information Processing Systems. 23: 1–8..

  • [158]

    ^Socher, Richard; Lin, Clif (2011). "Parsing Natural Scenes and Natural Language with Recursive Neural Networks" (PDF). Proceedings of the 26th International Conference on Machine Learning..

  • [159]

    ^Taylor, Graham; Hinton, Geoffrey (2006). "Modeling Human Motion Using Binary Latent Variables" (PDF). Advances in Neural Information Processing Systems..

  • [160]

    ^Vincent, Pascal; Larochelle, Hugo (2008). Extracting and composing robust features with denoising autoencoders. Proceedings of the 25th International Conference on Machine Learning – ICML '08. pp. 1096–1103. CiteSeerX 10.1.1.298.4083. doi:10.1145/1390156.1390294. ISBN 9781605582054..

  • [161]

    ^Kemp, Charles; Perfors, Amy; Tenenbaum, Joshua (2007). "Learning overhypotheses with hierarchical Bayesian models". Developmental Science. 10 (3): 307–21. CiteSeerX 10.1.1.141.5560. doi:10.1111/j.1467-7687.2007.00585.x. PMID 17444972..

  • [162]

    ^Xu, Fei; Tenenbaum, Joshua (2007). "Word learning as Bayesian inference". Psychol. Rev. 114 (2): 245–72. CiteSeerX 10.1.1.57.9649. doi:10.1037/0033-295X.114.2.245. PMID 17500627..

  • [163]

    ^Chen, Bo; Polatkan, Gungor (2011). "The Hierarchical Beta Process for Convolutional Factor Analysis and Deep Learning" (PDF). Proceedings of the 28th International Conference on International Conference on Machine Learning. Omnipress. pp. 361–368. ISBN 978-1-4503-0619-5..

  • [164]

    ^Fei-Fei, Li; Fergus, Rob (2006). "One-shot learning of object categories". IEEE Transactions on Pattern Analysis and Machine Intelligence. 28 (4): 594–611. CiteSeerX 10.1.1.110.9024. doi:10.1109/TPAMI.2006.79. PMID 16566508..

  • [165]

    ^Rodriguez, Abel; Dunson, David (2008). "The Nested Dirichlet Process". Journal of the American Statistical Association. 103 (483): 1131–1154. CiteSeerX 10.1.1.70.9873. doi:10.1198/016214508000000553..

  • [166]

    ^Ruslan, Salakhutdinov; Joshua, Tenenbaum (2012). "Learning with Hierarchical-Deep Models". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1958–71. CiteSeerX 10.1.1.372.909. doi:10.1109/TPAMI.2012.269. PMID 23787346..

  • [167]

    ^Chalasani, Rakesh; Principe, Jose (2013). "Deep Predictive Coding Networks". arXiv:1301.3541 [cs.LG]..

  • [168]

    ^Hinton, Geoffrey E. (1984). "Distributed representations". Archived from the original on 2016-05-02..

  • [169]

    ^S.学习上下文无关文法:带有外部栈内存的递归神经网络的限制。第14届年度会议。Cog的。Sci。足球。,第79页,1992年。.

  • [170]

    ^Mozer, M. C.; Das, S. (1993). "A connectionist symbol manipulator that discovers the structure of context-free languages". NIPS 5. pp. 863–870..

  • [171]

    ^Schmidhuber, J. (1992). "Learning to control fast-weight memories: An alternative to recurrent nets". Neural Computation. 4 (1): 131–139. doi:10.1162/neco.1992.4.1.131..

  • [172]

    ^Gers, F.; Schraudolph, N.; Schmidhuber, J. (2002). "Learning precise timing with LSTM recurrent networks" (PDF). JMLR. 3: 115–143..

  • [173]

    ^Jürgen Schmidhuber (1993). "An introspective network that can learn to run its own weight change algorithm". In Proc. of the Intl. Conf. on Artificial Neural Networks, Brighton. IEE. pp. 191–195..

  • [174]

    ^Hochreiter, Sepp; Younger, A. Steven; Conwell, Peter R. (2001). "Learning to Learn Using Gradient Descent". ICANN. 2130: 87–94. CiteSeerX 10.1.1.5.323..

  • [175]

    ^Schmidhuber, Juergen (2015). "Learning to Transduce with Unbounded Memory". arXiv:1506.02516 [cs.NE]..

  • [176]

    ^Schmidhuber, Juergen (2014). "Neural Turing Machines". arXiv:1410.5401 [cs.NE]..

  • [177]

    ^Burgess, Matt. "DeepMind's AI learned to ride the London Underground using human-like reason and memory". WIRED UK. Retrieved 2016-10-19..

  • [178]

    ^"DeepMind AI 'Learns' to Navigate London Tube". PCMAG. Retrieved 2016-10-19..

  • [179]

    ^Mannes, John. "DeepMind's differentiable neural computer helps you navigate the subway with its memory". TechCrunch. Retrieved 2016-10-19..

  • [180]

    ^Graves, Alex; Wayne, Greg; Reynolds, Malcolm; Harley, Tim; Danihelka, Ivo; Grabska-Barwińska, Agnieszka; Colmenarejo, Sergio Gómez; Grefenstette, Edward; Ramalho, Tiago (2016-10-12). "Hybrid computing using a neural network with dynamic external memory". Nature. 538 (7626): 471–476. Bibcode:2016Natur.538..471G. doi:10.1038/nature20101. ISSN 1476-4687. PMID 27732574..

  • [181]

    ^"Differentiable neural computers | DeepMind". DeepMind. Retrieved 2016-10-19..

  • [182]

    ^Atkeson, Christopher G.; Schaal, Stefan (1995). "Memory-based neural networks for robot learning". Neurocomputing. 9 (3): 243–269. doi:10.1016/0925-2312(95)00033-6..

  • [183]

    ^萨拉赫丁诺夫、罗斯兰和杰弗里·辛顿。“语义哈希”《国际近似推理杂志》50.7(2009):969–978。.

  • [184]

    ^Le, Quoc V.; Mikolov, Tomas (2014). "Distributed representations of sentences and documents". arXiv:1405.4053 [cs.CL]..

  • [185]

    ^Schmidhuber, Juergen (2014). "Memory Networks". arXiv:1410.3916 [cs.AI]..

  • [186]

    ^Schmidhuber, Juergen (2015). "End-To-End Memory Networks". arXiv:1503.08895 [cs.NE]..

  • [187]

    ^Schmidhuber, Juergen (2015). "Large-scale Simple Question Answering with Memory Networks". arXiv:1506.02075 [cs.LG]..

  • [188]

    ^"AI device identifies objects at the speed of light: The 3D-printed artificial neural network can be used in medicine, robotics and security". ScienceDaily. Retrieved 2018-08-08..

  • [189]

    ^Schmidhuber, Juergen (2015). "Pointer Networks". arXiv:1506.03134 [stat.ML]..

  • [190]

    ^Schmidhuber, Juergen (2015). "Neural Random-Access Machines". arXiv:1511.06392 [cs.LG]..

  • [191]

    ^Kalchbrenner, N.; Blunsom, P. (2013). "Recurrent continuous translation models". EMNLP'2013..

  • [192]

    ^Sutskever, I.; Vinyals, O.; Le, Q. V. (2014). "Sequence to sequence learning with neural networks" (PDF). NIPS'2014..

  • [193]

    ^Schmidhuber, Juergen (2014). "Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation". arXiv:1406.1078 [cs.CL]..

  • [194]

    ^Schmidhuber, Juergen; Courville, Aaron; Bengio, Yoshua (2015). "Describing Multimedia Content using Attention-based Encoder--Decoder Networks". IEEE Transactions on Multimedia. 17 (11): 1875–1886. arXiv:1507.01053. doi:10.1109/TMM.2015.2477044..

  • [195]

    ^Scholkopf, B; Smola, Alexander (1998). "Nonlinear component analysis as a kernel eigenvalue problem". Neural Computation. (44) (5): 1299–1319. CiteSeerX 10.1.1.53.8911. doi:10.1162/089976698300017467..

  • [196]

    ^Cho, Youngmin (2012). "Kernel Methods for Deep Learning" (PDF): 1–9..

  • [197]

    ^Deng, Li; Tur, Gokhan; He, Xiaodong; Hakkani-Tür, Dilek (2012-12-01). "Use of Kernel Deep Convex Networks and End-To-End Learning for Spoken Language Understanding". Microsoft Research..

  • [198]

    ^Zoph, Barret; Le, Quoc V. (2016-11-04). "Neural Architecture Search with Reinforcement Learning". arXiv:1611.01578 [cs.LG]..

  • [199]

    ^Zissis, Dimitrios (October 2015). "A cloud based architecture capable of perceiving and predicting multiple vessel behaviour". Applied Soft Computing. 35: 652–661. doi:10.1016/j.asoc.2015.07.002..

  • [200]

    ^Roman M. Balabin; Ekaterina I. Lomakina (2009). "Neural network approach to quantum-chemistry data: Accurate prediction of density functional theory energies". J. Chem. Phys. 131 (7): 074104. Bibcode:2009JChPh.131g4104B. doi:10.1063/1.3206326. PMID 19708729..

  • [201]

    ^利用深度神经网络和树搜索来掌握围棋游戏自然529.7587 (2016): 484。.

  • [202]

    ^Sengupta, Nandini; Sahidullah, Md; Saha, Goutam (August 2016). "Lung sound classification using cepstral-based statistical features". Computers in Biology and Medicine. 75 (1): 118–129. doi:10.1016/j.compbiomed.2016.05.013. PMID 27286184..

  • [203]

    ^3d-r2n2:单视图和多视图3d对象重建的统一方法欧洲计算机视觉会议。斯普林格,查姆,2016年。.

  • [204]

    ^French, Jordan (2016). "The time traveller's CAPM". Investment Analysts Journal. 46 (2): 81–96. doi:10.1080/10293523.2016.1255469..

  • [205]

    ^Schechner, Sam (2017-06-15). "Facebook Boosts A.I. to Block Terrorist Propaganda". Wall Street Journal. ISSN 0099-9660. Retrieved 2017-06-16..

  • [206]

    ^Ganesan, N. "Application of Neural Networks in Diagnosing Cancer Disease Using Demographic Data" (PDF). International Journal of Computer Applications..

  • [207]

    ^Bottaci, Leonardo. "Artificial Neural Networks Applied to Outcome Prediction for Colorectal Cancer Patients in Separate Institutions" (PDF). The Lancet..

  • [208]

    ^Alizadeh, Elaheh; Lyons, Samanthe M; Castle, Jordan M; Prasad, Ashok (2016). "Measuring systematic changes in invasive cancer cell shape using Zernike moments". Integrative Biology. 8 (11): 1183–1193. doi:10.1039/C6IB00100A. PMID 27735002..

  • [209]

    ^Lyons, Samanthe (2016). "Changes in cell shape are correlated with metastatic potential in murine". Biology Open. 5 (3): 289–299. doi:10.1242/bio.013409. PMC 4810736. PMID 26873952..

  • [210]

    ^Nabian, Mohammad Amin; Meidani, Hadi (2017-08-28). "Deep Learning for Accelerated Reliability Analysis of Infrastructure Networks". Computer-Aided Civil and Infrastructure Engineering. 33 (6): 443–458. arXiv:1708.08551. doi:10.1111/mice.12359..

  • [211]

    ^Nabian, Mohammad Amin; Meidani, Hadi (2018). "Accelerating Stochastic Assessment of Post-Earthquake Transportation Network Connectivity via Machine-Learning-Based Surrogates". Transportation Research Board 97th Annual Meeting..

  • [212]

    ^Díaz, E.; Brotons, V.; Tomás, R. (September 2018). "Use of artificial neural networks to predict 3-D elastic settlement of foundations on soils with inclined bedrock". Soils and Foundations. 58 (6): 1414–1422. doi:10.1016/j.sandf.2018.08.001. ISSN 0038-0806..

  • [213]

    ^null null (2000-04-01). "Artificial Neural Networks in Hydrology. I: Preliminary Concepts". Journal of Hydrologic Engineering. 5 (2): 115–123. CiteSeerX 10.1.1.127.3861. doi:10.1061/(ASCE)1084-0699(2000)5:2(115)..

  • [214]

    ^null null (2000-04-01). "Artificial Neural Networks in Hydrology. II: Hydrologic Applications". Journal of Hydrologic Engineering. 5 (2): 124–137. doi:10.1061/(ASCE)1084-0699(2000)5:2(124)..

  • [215]

    ^Peres, D. J.; Iuppa, C.; Cavallaro, L.; Cancelliere, A.; Foti, E. (2015-10-01). "Significant wave height record extension by neural networks and reanalysis wind data". Ocean Modelling. 94: 128–140. Bibcode:2015OcMod..94..128P. doi:10.1016/j.ocemod.2015.08.002..

  • [216]

    ^Dwarakish, G. S.; Rakshith, Shetty; Natesan, Usha (2013). "Review on Applications of Neural Network in Coastal Engineering". Artificial Intelligent Systems and Machine Learning (in English). 5 (7): 324–331.CS1 maint: Unrecognized language (link).

  • [217]

    ^Ermini, Leonardo; Catani, Filippo; Casagli, Nicola (2005-03-01). "Artificial Neural Networks applied to landslide susceptibility assessment". Geomorphology. Geomorphological hazard and human impact in mountain environments. 66 (1): 327–343. Bibcode:2005Geomo..66..327E. doi:10.1016/j.geomorph.2004.09.025..

  • [218]

    ^Nix, R.; Zhang, J. (May 2017). "Classification of Android apps and malware using deep neural networks". 2017 International Joint Conference on Neural Networks (IJCNN): 1871–1878. doi:10.1109/IJCNN.2017.7966078. ISBN 978-1-5090-6182-2..

  • [219]

    ^"Machine Learning: Detecting malicious domains with Tensorflow". The Coruscan Project..

  • [220]

    ^"Detecting Malicious URLs". The systems and networking group at UCSD..

  • [221]

    ^"DeepExploit: a fully automated penetration test tool". Isao Takaesu | GitHub..

  • [222]

    ^Homayoun, Sajad; Ahmadzadeh, Marzieh; Hashemi, Sattar; Dehghantanha, Ali; Khayami, Raouf (2018), Dehghantanha, Ali; Conti, Mauro; Dargahi, Tooska, eds., "BoTShark: A Deep Learning Approach for Botnet Traffic Detection", Cyber Threat Intelligence, Advances in Information Security, Springer International Publishing, pp. 137–153, doi:10.1007/978-3-319-73951-9_7, ISBN 9783319739519.

  • [223]

    ^and (January 1994). "Credit card fraud detection with a neural-network". 1994 Proceedings of the Twenty-Seventh Hawaii International Conference on System Sciences. 3: 621–630. doi:10.1109/HICSS.1994.323314. ISBN 978-0-8186-5090-1..

  • [224]

    ^Forrest MD (April 2015). "Simulation of alcohol action upon a detailed Purkinje neuron model and a simpler surrogate model that runs >400 times faster". BMC Neuroscience. 16 (27): 27. doi:10.1186/s12868-015-0162-6. PMC 4417229. PMID 25928094..

  • [225]

    ^Siegelmann, H.T.; Sontag, E.D. (1991). "Turing computability with neural nets" (PDF). Appl. Math. Lett. 4 (6): 77–80. doi:10.1016/0893-9659(91)90080-F..

  • [226]

    ^Balcázar, José (Jul 1997). "Computational Power of Neural Networks: A Kolmogorov Complexity Characterization". IEEE Transactions on Information Theory. 43 (4): 1175–1183. CiteSeerX 10.1.1.411.7782. doi:10.1109/18.605580. Retrieved 3 November 2014..

  • [227]

    ^基于RLS的CMAC学习算法神经处理快报19.1(2004):49–61。.

  • [228]

    ^Adrian, Edward D. (1926). "The impulses produced by sensory nerve endings". The Journal of Physiology. 61 (1): 49–72. doi:10.1113/jphysiol.1926.sp002273. PMC 1514809. PMID 16993776..

  • [229]

    ^Dewdney, A. K. (1 April 1997). Yes, we have no neutrons: an eye-opening tour through the twists and turns of bad science. Wiley. p. 82. ISBN 978-0-471-10806-1..

  • [230]

    ^D.费勒曼和华盛顿·范·埃森,”灵长类大脑皮层中的分布式分层处理,”大脑皮层,1,第1-47页,1991年。.

  • [231]

    ^J.翁,“自然和人工智能:计算大脑-思维导论”,体重指数出版社,ISBN 978-0985875725,2012年。.

  • [232]

    ^Edwards, Chris (25 June 2015). "Growing pains for deep learning". Communications of the ACM. 58 (7): 14–16. doi:10.1145/2771283..

  • [233]

    ^Schmidhuber, Jürgen (2015). "Deep learning in neural networks: An overview". Neural Networks. 61: 85–117. arXiv:1404.7828. doi:10.1016/j.neunet.2014.09.003. PMID 25462637..

  • [234]

    ^“基于现场可编程门阵列的卷积神经网络加速器概述”,NCAA,2018年.

  • [235]

    ^Cade Metz (May 18, 2016). "Google Built Its Very Own Chips to Power Its AI Bots". Wired..

  • [236]

    ^美国宇航局-德莱登飞行研究中心-新闻发布室:新闻稿:美国宇航局神经网络项目通过里程碑。。Nasa.gov。检索于2013-11-20。.

  • [237]

    ^"Roger Bridgman's defence of neural networks". Archived from the original on 19 March 2012. Retrieved 12 July 2010..

  • [238]

    ^"Scaling Learning Algorithms towards {AI} – LISA – Publications – Aigaion 2.0"..

  • [239]

    ^《太阳报》和《书商》(1990).

  • [240]

    ^Tahmasebi; Hezarkhani (2012). "A hybrid neural networks-fuzzy logic-genetic algorithm for grade estimation". Computers & Geosciences. 42: 18–27. Bibcode:2012CG.....42...18T. doi:10.1016/j.cageo.2012.02.004. PMC 4268588. PMID 25540468..

阅读 2.9w
版本记录
  • 暂无