过度拟合

             

   过度拟合(或称过拟合、过配,英文:overfitting)是指机器学习算模型在训练集上的误差和测试集上的误差之间差异过大. 造成过度拟合的原因可能有多种.最常见的就是模型容量过高,模型过于复杂,换句话说是模型假设所包含的参数数量过多.如此一来,算法会将训练集中所包含的没有普遍性的一些特征也学习进来,结果降低了模型的泛化能力.

图
图 1:过度拟合.左图:欠拟合;中图:恰当拟合;右图:过度拟合

   机器学习从功能表现上与人类的学习类似. 打个可能不太恰当的比方,一个饱经沧桑,经历过各种复杂人际关系的人在遇到一个心思纯粹的人时,容易将对方想得很复杂,反而难以理解对方.这其实是因为他自己的经历所决定的.

   过度拟合无法完全避免.在实际应用中,可以采用一些方法来尽可能减少过度拟合,例如,降低模型的复杂度,提前停止(Early stopping ),交叉验证(Cross-validation),或者正则化(Regularization)等方法.

   提高模型泛化能力背后的哲学思想正是所谓的 “奥卡姆剃刀” 原理.此原理的意思是,在能够解释所观察到的现象的各种不同理论中,我们尽可能去选择那个最简单的理论.

   参考文献:

  1. I. Goodfellow, Y. Bengio, A. Courville, and Y. Bengio, Deep learning, vol. 1, no. 2. MIT press Cambridge, 2016.
  2. 周志华.机器学习[M].清华大学出版社, 2016
  3. https://en.wikipedia.org/wiki/Overfitting
致读者: 小时百科一直以来坚持所有内容免费无广告,这导致我们处于严重的亏损状态。 长此以往很可能会最终导致我们不得不选择会员制,大量广告,内容付费等。 因此,我们请求广大读者热心打赏 ,使网站得以健康发展。 如果看到这条信息的每位读者能慷慨打赏 10 元,我们一个星期内就能脱离亏损, 并保证网站能在接下来的一整年里向所有读者继续免费提供优质内容。 但遗憾的是只有不到 1% 的读者愿意捐款, 他们的付出帮助了 99% 的读者免费获取知识, 我们在此表示感谢。

         

© 小时科技 保留一切权利