The Wayback Machine - https://web.archive.org/web/20221025131546/https://baike.sogou.com/kexue/d11019.htm

可能近似正确学习

编辑

在计算学习理论中,概率近似正确学习PAC) 是机器学习领域中的一种数学分析框架。它是1984年由莱斯利·瓦里安Leslie Valiant提出的。[1]

在这个框架中,学习者接收样本,并且必须从一类可能的函数中选择一个泛化函数(称为归纳偏移)。其目标是,在尽可能高的概率下,所选函数的泛化误差应当较低。学习者必须能够在任意给定比率、成功概率或样本的分布学得概念。

该模型后来被扩展到处理噪声(被错误分类的样本)。

PAC框架的一个重要创新是引入了机器学习中计算复杂性理论的概念。特别地,学习者需要找到有效的函数(时间和空间复杂度限制在 多项式内), 并且学习者本身必须实现一个有效的程序(该程序的一个例子需要在近似多项式时间复杂度内完成)。

1 定义和术语编辑

为了给PAC可学习下定义,我们首先要介绍一些术语。[2][3]

对于以下定义,将引入两个示例。 第一个例子是在给定一个   编码二进制值图像的数组的情况下完成字符识别的问题。另一个例子是找到一个区间,该区间将正确地将区间内的点分类为正,将区间外的点分类为负。

  是一个叫做样本空间 (或者说是所有样本的编码)。在字符识别问题中,样本空间是  。 在区间问题中,样本空间  ,是中所有有界区间的集合  ,其中   表示所有实数的集合。

一个概念应当是  的子集。第一个例子一个概念是  中所有的编码字母“P”的图片的比特的模式的集合。第二个例子中的一个概念是一组开放区间  ,其中每一个区间只包含正数。 一个概念类   是一组定义在  上的概念构成的集合。这可以是比特数组的所有子集的集合骨架化的 4-连接 (字体宽度为1)。

  是一个举个例子的过程,  ,使用概率分布   并给出正确的标签  ,即为1如果   否则为0。

现在,鉴于  ,假设有一个算法   和多项式     (以及该类的其他相关参数  )使得,给定根据以下标准绘制的尺寸为p的样本  那么,至少有可能  ,   输出一个假设   平均误差小于或等于     具有相同的分布  。 此外,如果上述算法语句  对每个概念都是正确的   对于每一次发行   超过  对所有人来说   然后   是(有效地) PAC可学习 (或免分发包装可学习)。我们也可以这么说   是一个包装学习算法  

2 相等编辑

在某些特定条件下,以下三个条件是等价的:

  1. 一个概念类C 是PAC可学习的。
  2. C的VC维是有限的。
  3. C 是一致 Glivenko-Cantelli class。

参考文献

  • [1]

    ^L. Valiant. A theory of the learnable. Communications of the ACM, 27, 1984..

  • [2]

    ^Kearns and Vazirani, pg. 1-12,.

  • [3]

    ^Balas Kausik Natarajan, Machine Learning , A Theoretical Approach, Morgan Kaufmann Publishers, 1991.

阅读 35
版本记录
  • 暂无