1 定义

深度学习是一类机器学习算法:[10] 使用多个层逐步从原始输入中逐步提取更高级别的特征。例如,在图像处理中,较低层可以识别边缘,而较高层可以识别对人类有意义的部分,例如数字/字母或面部。

2 概览



“深度学习”中的“深度”是指数据转换的层数。更准确地说,深度学习系统有一个实质的信用分配路径 (CAP)深度。CAP是从输入到输出的转换链。CAP描述了输入和输出之间潜在的因果关系。对于前馈神经网络,CAP的深度是网络的深度,等于隐藏层的数量加上1(因为输出层也是参数化的)。对于递归神经网络,其中信号可能不止一次地通过一个层传播,CAP深度可能是无限的。[2]没有普遍认同的深度阈值将浅层和深度学习区分开来,但是大多数研究者认同深度学习中的CAP深度>2。深度为2的CAP已被证明是一个通用逼近器,因为它可以模拟任何函数。除此之外,更多的层不会增加网络的函数逼近能力。深度模型(CAP > 2)能够提取比浅层模型更好的特征,因此,额外的层有助于学习特征。




3 解释





4 历史

深度学习这个术语由Rina Dechter于1986年引入机器学习社区,[25][13]伊戈尔·艾森堡和他的同事于2000年在布尔阈值神经元的背景下引入人工神经网络。[26][27]

Alexey Ivakhnenko和帕拉在1965年发表了第一个用于监督的、深度的、前馈的多层感知器的通用工作学习算法。[28]1971年的一篇论文描述了一个由数据处理算法的分组方法训练的8层深度网络。[29]


到1991年,这种系统被用于识别孤立的二维手写数字,而识别三维物体是通过将二维图像与手工制作的三维物体模型相匹配来完成的。翁等人提出人脑并不使用单一的三维对象模型,1992年,他们发表了Cresceptron,[36][37][38]一种在复杂场景中进行三维物体识别的方法。因为它直接使用自然图像,Cresceptron开启了自然3D世界的通用视觉学习。与神经认知机相似,Cresceptron是一多层的级联。但是,虽然神经认知机需要人类程序员手工合并特征,Cresceptron却在没有监督的情况下在每一层中学习了大量的特征,其中每个特征都由卷积核表示。Cresceptron通过网络进行反分析,从杂乱的场景中分割出每个学习对象。最大池化(Max pooling)现在经常被深度神经网络采用(例如图像网测试),最早在Cresceptron中通过级联用来将位置分辨率降低(2x2)到1倍,以便更好地泛化。


1995年,布兰登·弗雷证明,使用由彼得·达扬和辛顿共同开发的唤醒睡眠算法,可以训练(超过两天)一个包含六个全连接的层和数百个隐藏单元的网络。[40]许多因素导致了速度的缓慢,包括Sepp Hochreiter在1991年分析的梯度消失问题。[41][42]



大多数语音识别研究人员从神经网络转向了生成模型。一个例外是20世纪90年代末的斯坦福国际研究院(SRI International)。在美国国家安全局和美国国防部高级研究计划局的资助下,SRI研究了语音和说话人识别中的深度神经网络。Heck的说话人识别团队在1998年的国家标准与技术研究所说话人识别评估中,首次在语音处理中使用深度神经网络取得了重大成功。[49]虽然SRI在说话人识别中使用深度神经网络取得了成功,但在语音识别中却没有取得类似的成功。在20世纪90年代后期的“原始”谱图或线性滤波器组特征的深度自动编码器的架构中,首次成功地探索到将“原始”特征提升到手工优化之上的原理,[49]并表现出它优于包含光谱图固定变换阶段的Mel-Cepstral特征。语音、波形的原始特征后来产生了大规模卓越成果。[50]

语音识别的许多方面被一种叫做长短期记忆(LSTM)的深度学习方法所取代,这是一种由霍克雷特和施密休伯在1997年发表的循环神经网络。[51]LSTM神经网络避免了梯度消失问题,可以学习“非常深入学习”任务[2],这需要对之前发生的几千个离散时间步长的事件进行记忆,这对语音识别很重要。2003年,LSTM开始在某些特定任务上与传统的语音识别器竞争。[52]后来,它与联结主义时间分类(CTC)相结合[53]为成堆的LSTM循环神经网络。[54] 据报道,在2015年,谷歌的语音识别通过CTC的LSTM产生了49%的惊人性能提升,并将它用于Google语音搜索。[55]

2006年,杰夫·辛顿、鲁斯兰·萨拉赫丁诺夫、奥辛德罗和特赫的出版物[56][57][58]展示了多层前馈神经网络如何有效地一次预训练一层,依次将每层视为无监督的受限玻尔兹曼机,然后使用有监督的反向传播对其进行微调。[59]他们的论文参考了《learning for deep belief nets》。






4.1 深度学习革命







5 神经网络

5.1 人工神经网络






截至2017年,神经网络通常有几千到几百万个单元和几百万个连接。尽管这个数字比人脑中的神经元数量少几个数量级,但这些网络可以在超出人类水平的水平上执行许多任务(例如,人脸识别,下围棋[100] )。

5.2 深度神经网络






深度卷积神经网络用于计算机视觉。[109] CNN也被用于自动语音识别(ASR)的声学建模。[67]



DNN倾向于过拟合,因为增加了抽象层,允许它们对训练数据中罕见的依赖关系建模。正则化方法如Ivakhnenko的单元剪枝[29]或者权重衰减(  -正则化)或稀疏化(  正规化)可以在避免过拟合的训练中使用。[110]另外,在训练过程中,dropout正则化会随机省略隐藏层中的单元。这有助于排除罕见的依赖性。[111]最后,可以通过剪枝和旋转等方法来增加数据,从而可以增加较小的训练集,以减少过拟合的机会。[112]

DNN必须考虑许多训练参数,例如大小(层数和每层单元数)、学习速率和初始权重。由于时间和计算资源的成本,在参数空间中搜索最优参数可能是不可行的。有各种技巧如批处理(一次计算几个训练示例的梯度,而不是单个示例)[113]加速计算。多核架构(如GPU或英特尔Xeon Phi)的强大处理能力大大加快了训练速度,因为这种处理架构适合矩阵和向量计算。[114][115]


6 应用

6.1 自动语音识别



方法 声音误差率(PER,%)
随机初始化RNN[119] 26.1
贝叶斯三音子GMM-HMM 25.6
隐藏轨迹(生成)模型 24.8
单音子重复初始化DNN 23.4
单音子DBN-DNN 22.4
带BMMI训练的三音子GMM-HMM 21.7
共享池上的单音子DBN-DNN 20.7
卷积DNN[120] 20.0
卷积DNN w。异构池 18.7
DNN / CNN / RNN合奏[121] 18.3
双向LSTM 17.9
分层卷积深度超出网络[122] 16.5


  • 放大/缩小和加速DNN训练和解码
  • 序列辨别训练
  • 通过对潜在机制有深刻理解的深层模型进行特征处理
  • DNN和相关深度模型的适应
  • 基于DnS和相关深层模型的多任务迁移学习
  • 卷积神经网络以及如何设计它们来最好地利用语音领域知识
  • RNN及其丰富的LSTM变体
  • 其他类型的深层模型包括基于张量的模型和集成的深层生成/判别模型。

所有主要的商业语音识别系统(如微软小娜、Xbox、Skype翻译器、亚马逊Alexa、Google Now、苹果Siri、百度和iFlyTek语音搜索,以及一系列Nuance语音产品等)都建立在深度学习的基础上。[10][123][124][125]

6.2 图像识别




6.3 视觉艺术处理


6.4 自然语言处理





6.5 药物发现和毒理学



6.6 客户关系管理


6.7 推荐系统


6.8 生物信息学



6.9 医学图像分析


6.10 手机广告


6.11 图像恢复


6.12 金融欺诈检测


6.13 军队


7 与人类认知和大脑发育的关系




8 商业活动





最初作为TAMER开发、后来在2018年美国陆军研究实验室(ARL)和UT研究人员的合作中引入了一种称为Deep TAMER的新算法。Deep TAMER使用深度学习为机器人提供通过观察学习新任务的能力。[167]

使用Deep TAMER,机器人与人类教练一起学习任务,观看视频流或观察人类亲自执行任务。机器人后来在教练的指导下练习了这项任务,教练在这个过程中提供了“做得好”和“做得不好”等反馈[190]

9 批判和议论


9.1 理论






9.2 错误


9.3 网络威胁







  • [1]

