The Wayback Machine - https://web.archive.org/web/20221025173903/https://baike.sogou.com/kexue/d10778.htm

监督式学习

编辑

监督式学习是一种机器学习任务,监督式学习根据样本输入输出来找到输入输出间的映射函数,该函数根据输入输出对的例子将输入映射到输出。[1]它从训练数据集中带标记的训练数据来推断出一个函数 。[2]在监督学习中,每个样本都是由一个输入对象(通常是一个向量)和一个期望的输出值(也称为监视信号)组成的数据对。监督学习算法分析训练数据并产生推断函数,该函数可用于映射新的样本。最佳情况下,算法能够确定现实数据的类标签。这要求学习算法以“合理”的方式从训练数据归纳现实场景的数据。

人类和动物心理学中的平行任务通常被称为概念学习。

1 步骤编辑

为了解决给定的监督学习问题,需要执行以下步骤:

  1. 确定训练数据的类型。在做其他事情之前,用户应该决定将哪种数据用作训练集。例如在手写字分析中,训练数据可能是一个单独的手写字符,一个完整的手写单词,或者一整行手写字。
  2. 收集训练集。训练集需要代表函数的实际应用。因此,输入对象能够从人类专家或测量中收集,并能收集到相应的输出。
  3. 确定学习函数的输入特征表示。学习函数的准确性很大程度上取决于输入对象的表示。通常,输入对象被转换成特征向量,该向量包含对象的许多描述性特征。由于维数灾难,特征的数量不应太大;但是应该包含足够的信息来准确预测输出。
  4. 确定学习函数的结构和相应的学习算法。例如,工程师会选择使用支持向量机或决策树。
  5. 完成设计。在收集的训练集中运行学习算法。一些监督学习算法要求用户确定某些控制参数。这些参数可以通过优化子集(称为验证集)或者通过交叉验证来进行调整。
  6. 评估学习函数的准确性。在参数调整和学习之后,结果函数的性能应该在独立于训练集的测试集上衡量。

2 算法选择编辑

有各种各样的监督学习算法可用,每种算法都有其优缺点。没有单独的学习算法能完美解决所有监督学习问题。

下面是监督学习中需要考虑的四个主要问题:

2.1 偏差-方差权衡

第一个问题是偏差方差[3]想象一下,我们有几个不同但同样好的训练数据集。如果在每个数据集上训练时,当预测   的正确输出时具有系统化的错误,那么称学习算法对于特定输入   具有偏差。如果它在不同的训练集上训练时预测的输出值不同,则称学习算法对于特定输入   具有高方差。学习分类器的预测误差与学习算法的偏差和方差之和有关。[4]一般来说,偏差和方差之间存在权衡。低偏差的学习算法必须是“灵活的”,以便能够很好地拟合数据。但是,如果学习算法过于灵活,它将不同地拟合每个训练数据集,因此具有很高的方差。许多监督学习方法的一个关键方面是能够调整偏差和方差之间的权衡(自动或者通过提供一个可由用户调整的偏差/方差参数)。

2.2 函数复杂性和训练数据量

第二个问题是相对于“真实”函数(分类器或回归函数)的复杂性,可用的训练数据量。如果真正的函数很简单,那么具有高偏差和低方差的“非灵活”学习算法将能够从少量数据中学习这个函数。但是,如果真正的函数非常复杂(例如,因为它涉及许多不同输入特征之间的复杂交互,并且在输入空间的不同部分表现不同),那么该函数只能从非常大量的训练数据中学习,并且使用具有低偏差和高方差的“灵活”学习算法。

2.3 输入空间的维数

第三个问题是输入空间的维数。如果输入特征向量具有非常高的维数,即使真正的函数只依赖于这些特征中的一小部分,学习问题也会很困难。这是因为许多“额外”维度会混淆学习算法并导致其具有高方差。因此,高输入维数通常需要调整分类器使其具有低方差和高偏差。实际上,如果工程师可以从输入数据中手动移除不相关的特征,就可能提高学习函数的准确性。此外也有许多特征选择算法,用于识别有关特征并舍弃无关特征。这是更一般的降维策略的一个例子,降维策略在运行监督学习算法之前将输入数据映射到更低维度的空间。

2.4 输出值中的噪声

第四个问题是期望输出值(监督目标变量)中的噪声程度。如果期望的输出值经常不正确(由于人为错误或传感器错误),则学习算法不应尝试找到与训练数据完全匹配的函数。试图过于细致地拟合数据会导致过拟合。如果你试图学习的函数对于你的学习模型来说太过复杂,即使没有计算误差(随机噪声),也会导致过拟合。在这种情况下,目标函数中无法建模的部分会“腐蚀”您的训练数据——这种现象被称为确定性噪声。当存在任何一种类型的噪声时,最好使用具有更高偏差、更低方差的估计量。

在实践中,有几种方法来减少输出值中的噪声,例如早停可以防止过拟合,以及在训练监督学习算法之前检测和去除有噪声的训练样本。有几种算法可以识别有噪声的训练样本并在训练前去除这些样本,从而降低泛化误差,具有统计学意义。[5][6]

2.5 其他需要考虑的因素(重要)

选择和应用学习算法时需要考虑的其他因素包括:

  • 数据的异质性。如果特征向量包括许多不同种类的特征(离散的、离散有序的、计数的、连续值),某些算法比其他算法更容易应用。包括支持向量机、线性回归、逻辑回归、神经网络和最近邻法在内的许多算法都要求输入特征是数字,并且缩放到类似的范围(例如,到[-1,1]区间)。使用距离函数的方法如最近邻法和高斯核支持向量机对此尤为敏感。决策树的一个优点是可以轻松处理异构数据。
  • 数据冗余。如果输入特征包含冗余信息(例如高度相关的特征),一些学习算法(例如线性回归、逻辑回归和基于距离的方法)将由于数值不稳定性而表现不佳。这些问题通常可以通过施加某种形式的正则化来解决。
  • 相互作用和非线性的存在。如果每个特征对输出都有独立的贡献,那么基于线性函数(例如线性回归、逻辑回归、支持向量机、朴素贝叶斯)和距离函数(例如最近邻法、高斯核支持向量机)的算法通常表现良好。然而,如果特征之间存在复杂的相互作用,那么诸如决策树和神经网络之类的算法运行得更好,因为它们是专门为发现这些相互作用而设计的算法。线性方法也可以应用于这种情况,但工程师在使用它们时必须手动指定相互作用。

当考虑一个新的应用时,工程师会比较多种学习算法并通过实验确定哪一种算法最适合当前的问题。调整学习算法的性能将非常耗时。在给定固定的资源的条件下,将更多的时间花在收集额外的训练数据和信息特性通常比花在调整学习算法上要好。

2.6 算法

最广泛使用的学习算法有:

  • 支持向量机
  • 线性回归
  • 逻辑回归
  • 朴素贝叶斯
  • 线性判别分析
  • 决策树
  • k最近邻算法
  • 神经网络(多层感知器)
  • 相似性学习

3 监督学习算法是如何工作的编辑

给定一组具有   组训练样本的集合的表单   ,使得   是第i个样本的特征向量,   是它的标签(即类别),学习算法寻找一个函数   ,其中   为输入空间,   为输出空间。函数   是一些可能的函数   的空间中的一个元素 ,这个空间通常被称为假设空间。有时使用评分函数   来表示   ,其中   被定义为返回值为   的得分最高的函数:      表示评分函数空间。

虽然      可以是任何函数空间,许多学习算法都采取了概率模型,其中   采取条件概率模型的形式   ,或让   采取联合概率模型的形式   。例如,朴素贝叶斯和线性判别分析属于联合概率模型,而逻辑回归属于条件概率模型。

有两种基本的      的选择方法:经验风险最小化和结构风险最小化。[7]经验风险最小化寻找最适合训练数据的函数。结构风险最小化包含了一个惩罚函数 来控制偏差/方差权衡。

在这两种情况下,假设训练集由独立同分布对的样本   组成。为了计算函数与训练数据的拟合程度,定义了一个损失函数   。对于训练样本   ,预测的损失值      

  风险函数   的定义为   的预期损失值。从训练数据中可以估计其为

  

3.1 经验风险最小化

在经验风险最小化方法中,监督学习算法寻找能够最小化   的函数   。因此,可以通过应用优化算法来构造监督学习算法以找出函数   

  是一个条件概率分布   且损失函数是负对数似然:   时,经验风险最小化等价于极大似然估计。

  包含许多候选函数或训练集不够大时,经验风险最小化会导致高方差和较差的泛化能力。学习算法能够记忆训练样本而没有得到良好泛化。这被称为做过拟合。

3.2 结构风险最小化

结构风险最小化试图通过在优化中加入正则化惩罚来防止过拟合。正则化惩罚可以被看作是实现了一种挑选更简单函数的奥卡姆剃刀原理的形式。

人们针对复杂性的不同定义采用了各种各样的惩罚措施。例如,考虑函数   是以下形式的线性函数的情况

  

一个流行的正则化惩罚是   ,它是权重的平方欧几里得范式,也称为   范式。其他规范包括   范式   ,和   范式,它是非零的   的个数。惩罚将表示为   

监督学习优化问题是寻找函数   来最小化

  

参数   控制偏差-方差权衡。当   的时候,它给出了具有低偏差和高方差的经验风险最小化。当   的值很大的时候,学习算法将具有高偏差和低方差。   的值可以通过交叉验证凭经验选择。

复杂性惩罚的贝叶斯解释为   的负对数先验概率   ,在这种情况下,      的后验概率。

4 生成训练编辑

上述训练方法属于辨别训练方法,因为它们试图找到一个可以很好地区分不同的输出值的函数   。在   是一个联合概率分布且损失函数是负对数似然   的特殊情况下,风险最小化算法用于执行生成训练,因为   可以被视为一个生成模型,用以解释数据是如何生成的。生成训练算法通常比判别训练算法更简单,计算效率更高。在某些情况下,解可以用封闭形式计算,如朴素贝叶斯和线性判别分析。

5 泛化编辑

有几种方法可以将标准监督学习问题泛化:

  • 半监督学习:在此场景中,只为训练数据的子集提供期望的输出值。剩余数据未标记。
  • 主动学习:主动学习算法不是假设所有的训练样本都在开始时给出,而是交互式地收集新的样本,通常是通过向人类用户进行查询。通常情况下,查询基于未标记的数据,这是一种将半监督学习与主动学习相结合的场景。
  • 结构化预测:当期望的输出值是一个复杂的对象时,如解析树或标记图,那么必须对标准方法进行扩展。
  • 排序学习:当输入是一组对象,而期望的输出是这些对象的排序时,标准方法必须再次进行扩展。

6 方法和算法编辑

  • 分析学习
  • 人工神经网络
  • 反向传播算法
  • 提升(元算法)
  • 贝叶斯统计
  • 基于案例的推理
  • 决策树学习
  • 归纳逻辑编程
  • 高斯过程回归
  • 遗传编程
  • 数据处理组合算法
  • 核估计量
  • 学习自动机
  • 学习分类器系统
  • 最小信息长度(决策树、决策图等。)
  • 多线性子空间学习
  • 朴素贝叶斯分类器
  • 最大熵分类器
  • 条件随机域
  • 最近邻算法
  • 可能近似正确学习
  • 知识获取方法——涟波下降规则
  • 符号机器学习算法
  • 子符号机器学习算法
  • 支持向量机
  • 最小复杂性机器
  • 随机森林
  • 分类器集合
  • 序数分类
  • 数据预处理
  • 不平衡数据集处理
  • 统计关系学习
  • Proaftn,一种多标准分类算法

7 应用编辑

  • 生物信息学
  • 化学信息学
    • 定量构效关系
  • 数据库营销
  • 手写识别
  • 信息检索
    • 排名学习
  • 信息提取
  • 计算机视觉中的目标识别
  • 光学字符识别
  • 垃圾邮件检测
  • 模式识别
  • 语音识别
  • 监督学习是生物系统中向下因果关系的特殊情况

8 一般性问题编辑

  • 计算学习理论
  • 归纳偏差
  • 过拟合(机器学习)
  • (未校准)类别成员概率
  • 无监督学习
  • 版本空间

参考文献

  • [1]

    ^Stuart J. Russell, Peter Norvig (2010) Artificial Intelligence: A Modern Approach, Third Edition, Prentice Hall ISBN 9780136042594..

  • [2]

    ^Mehryar Mohri, Afshin Rostamizadeh, Ameet Talwalkar (2012) Foundations of Machine Learning, The MIT Press ISBN 9780262018258..

  • [3]

    ^S. Geman, E. Bienenstock, and R. Doursat (1992). Neural networks and the bias/variance dilemma. Neural Computation 4, 1–58..

  • [4]

    ^G. James (2003) Variance and Bias for General Loss Functions, Machine Learning 51, 115-135. (http://www-bcf.usc.edu/~gareth/research/bv.pdf).

  • [5]

    ^C.E. Brodely and M.A. Friedl (1999). Identifying and Eliminating Mislabeled Training Instances, Journal of Artificial Intelligence Research 11, 131-167. (http://jair.org/media/606/live-606-1803-jair.pdf).

  • [6]

    ^M.R. Smith and T. Martinez (2011). "Improving Classification Accuracy by Identifying and Removing Instances that Should Be Misclassified". Proceedings of International Joint Conference on Neural Networks (IJCNN 2011). pp. 2690–2697. CiteSeerX 10.1.1.221.1371. doi:10.1109/IJCNN.2011.6033571..

  • [7]

    ^Vapnik, V. N. The Nature of Statistical Learning Theory (2nd Ed.), Springer Verlag, 2000..

阅读 466
版本记录
  • 暂无