为了解决给定的监督学习问题,需要执行以下步骤:
有各种各样的监督学习算法可用,每种算法都有其优缺点。没有单独的学习算法能完美解决所有监督学习问题。
下面是监督学习中需要考虑的四个主要问题:
第一个问题是偏差 和方差。[3]想象一下,我们有几个不同但同样好的训练数据集。如果在每个数据集上训练时,当预测 的正确输出时具有系统化的错误,那么称学习算法对于特定输入 具有偏差。如果它在不同的训练集上训练时预测的输出值不同,则称学习算法对于特定输入 具有高方差。学习分类器的预测误差与学习算法的偏差和方差之和有关。[4]一般来说,偏差和方差之间存在权衡。低偏差的学习算法必须是“灵活的”,以便能够很好地拟合数据。但是,如果学习算法过于灵活,它将不同地拟合每个训练数据集,因此具有很高的方差。许多监督学习方法的一个关键方面是能够调整偏差和方差之间的权衡(自动或者通过提供一个可由用户调整的偏差/方差参数)。
第二个问题是相对于“真实”函数(分类器或回归函数)的复杂性,可用的训练数据量。如果真正的函数很简单,那么具有高偏差和低方差的“非灵活”学习算法将能够从少量数据中学习这个函数。但是,如果真正的函数非常复杂(例如,因为它涉及许多不同输入特征之间的复杂交互,并且在输入空间的不同部分表现不同),那么该函数只能从非常大量的训练数据中学习,并且使用具有低偏差和高方差的“灵活”学习算法。
第三个问题是输入空间的维数。如果输入特征向量具有非常高的维数,即使真正的函数只依赖于这些特征中的一小部分,学习问题也会很困难。这是因为许多“额外”维度会混淆学习算法并导致其具有高方差。因此,高输入维数通常需要调整分类器使其具有低方差和高偏差。实际上,如果工程师可以从输入数据中手动移除不相关的特征,就可能提高学习函数的准确性。此外也有许多特征选择算法,用于识别有关特征并舍弃无关特征。这是更一般的降维策略的一个例子,降维策略在运行监督学习算法之前将输入数据映射到更低维度的空间。
第四个问题是期望输出值(监督目标变量)中的噪声程度。如果期望的输出值经常不正确(由于人为错误或传感器错误),则学习算法不应尝试找到与训练数据完全匹配的函数。试图过于细致地拟合数据会导致过拟合。如果你试图学习的函数对于你的学习模型来说太过复杂,即使没有计算误差(随机噪声),也会导致过拟合。在这种情况下,目标函数中无法建模的部分会“腐蚀”您的训练数据——这种现象被称为确定性噪声。当存在任何一种类型的噪声时,最好使用具有更高偏差、更低方差的估计量。
在实践中,有几种方法来减少输出值中的噪声,例如早停可以防止过拟合,以及在训练监督学习算法之前检测和去除有噪声的训练样本。有几种算法可以识别有噪声的训练样本并在训练前去除这些样本,从而降低泛化误差,具有统计学意义。[5][6]
选择和应用学习算法时需要考虑的其他因素包括:
当考虑一个新的应用时,工程师会比较多种学习算法并通过实验确定哪一种算法最适合当前的问题。调整学习算法的性能将非常耗时。在给定固定的资源的条件下,将更多的时间花在收集额外的训练数据和信息特性通常比花在调整学习算法上要好。
最广泛使用的学习算法有:
给定一组具有 组训练样本的集合的表单 ,使得 是第i个样本的特征向量, 是它的标签(即类别),学习算法寻找一个函数 ,其中 为输入空间, 为输出空间。函数 是一些可能的函数 的空间中的一个元素 ,这个空间通常被称为假设空间。有时使用评分函数 来表示 ,其中 被定义为返回值为 的得分最高的函数: 。 表示评分函数空间。
虽然 和 可以是任何函数空间,许多学习算法都采取了概率模型,其中 采取条件概率模型的形式 ,或让 采取联合概率模型的形式 。例如,朴素贝叶斯和线性判别分析属于联合概率模型,而逻辑回归属于条件概率模型。
有两种基本的 或 的选择方法:经验风险最小化和结构风险最小化。[7]经验风险最小化寻找最适合训练数据的函数。结构风险最小化包含了一个惩罚函数 来控制偏差/方差权衡。
在这两种情况下,假设训练集由独立同分布对的样本 组成。为了计算函数与训练数据的拟合程度,定义了一个损失函数 。对于训练样本 ,预测的损失值 为 。
的风险函数 的定义为 的预期损失值。从训练数据中可以估计其为
。
在经验风险最小化方法中,监督学习算法寻找能够最小化 的函数 。因此,可以通过应用优化算法来构造监督学习算法以找出函数 。
当 是一个条件概率分布 且损失函数是负对数似然: 时,经验风险最小化等价于极大似然估计。
当 包含许多候选函数或训练集不够大时,经验风险最小化会导致高方差和较差的泛化能力。学习算法能够记忆训练样本而没有得到良好泛化。这被称为做过拟合。
结构风险最小化试图通过在优化中加入正则化惩罚来防止过拟合。正则化惩罚可以被看作是实现了一种挑选更简单函数的奥卡姆剃刀原理的形式。
人们针对复杂性的不同定义采用了各种各样的惩罚措施。例如,考虑函数 是以下形式的线性函数的情况
。
一个流行的正则化惩罚是 ,它是权重的平方欧几里得范式,也称为 范式。其他规范包括 范式 ,和 范式,它是非零的 的个数。惩罚将表示为 。
监督学习优化问题是寻找函数 来最小化
参数 控制偏差-方差权衡。当 的时候,它给出了具有低偏差和高方差的经验风险最小化。当 的值很大的时候,学习算法将具有高偏差和低方差。 的值可以通过交叉验证凭经验选择。
复杂性惩罚的贝叶斯解释为 的负对数先验概率 ,在这种情况下, 是 的后验概率。
上述训练方法属于辨别训练方法,因为它们试图找到一个可以很好地区分不同的输出值的函数 。在 是一个联合概率分布且损失函数是负对数似然 的特殊情况下,风险最小化算法用于执行生成训练,因为 可以被视为一个生成模型,用以解释数据是如何生成的。生成训练算法通常比判别训练算法更简单,计算效率更高。在某些情况下,解可以用封闭形式计算,如朴素贝叶斯和线性判别分析。
有几种方法可以将标准监督学习问题泛化:
^Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 9780136042594..
^Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258..
^S. Geman, E. Bienenstock, and R. Doursat (1992). Neural networks and the bias/variance dilemma. Neural Computation 4, 1–58..
^G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf).
^C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf).
^M.R. Smith and T. Martinez (2011). "Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified". Proceedings of International Joint Conference on Neural Networks (IJCNN 2011). pp. 2690–2697. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571..
^Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000..
暂无