The Wayback Machine - https://web.archive.org/web/20221028211550/https://baike.sogou.com/kexue/d11163.htm

模式识别

编辑

模式识别是对数据中模式和规律的自动识别。模式识别与人工智能和机器学习密切相关,[1]与数据挖掘和数据库知识发现(KDD)等应用一起使用,并且经常与这些术语互换使用。然而,他们是有区别的:机器学习是模式识别的一种方法,而其他方法包括手工(未学习的)规则或启发式;模式识别是人工智能的一种方法,而其他方法包括人工智能。[2]模式识别的现代定义是:

模式识别领域通过使用计算机算法自动发现数据中的规律,并利用这些规律,例如将数据分类为不同的类别。[3]

这里着重于模式识别的机器学习方法。模式识别系统在许多情况下是从标记的“训练”数据(监督学习)中训练的,但是当没有标记的数据可用时,其他算法可以用来发现以前未知的模式(无监督学习)。机器学习是监督学习方法的常用术语,起源于人工智能,而数据库知识发现和数据挖掘更注重无监督的方法和与业务使用的更紧密联系。模式识别起源于工程学,这个术语在计算机视觉领域很流行:一个领先的计算机视觉会议被命名为计算机视觉和模式识别会议。在模式识别中,对形式化、解释和可视化模式可能有更高的兴趣,而机器学习传统上侧重于最大化识别率。然而,所有这些领域都从它们在人工智能、工程和统计中的根源得到了实质性的发展,并且通过整合彼此的发展和想法,它们变得越来越相似。

在机器学习中,模式识别是将标签分配给给定的输入值。在统计学中,判别分析在1936年因为同样的目的被引入。模式识别的一个例子是分类,它试图将每个输入值分配给给定集合中的一类(例如,确定给定的电子邮件是“垃圾邮件”还是“非垃圾邮件”)。然而,模式识别是一个更普遍的问题,它也包括其他类型的输出。其他例子是回归,它为每个输入分配一个实值输出;[4] 序列标签,它为值序列的每个成员分配一个类[5](例如,词性标注,它为输入句子中的每个单词分配一个词性);和解析,其为输入句子分配解析树,描述句子的句法结构。[6]

模式识别算法通常旨在为所有可能的输入提供合理的答案,并考虑输入的统计变化,对输入执行“最可能”的匹配。这与模式匹配 算法相反,在输入中寻找与预先存在的模式的精确匹配。模式匹配算法的一个常见例子是正则表达式匹配,它在文本数据中寻找给定类型的模式,并包括在许多文本编辑器和文字处理器的搜索能力中。与模式识别相反,模式匹配通常不是一种机器学习类型,尽管模式匹配算法(特别是具有相当一般的、精心定制的模式)有时可以成功地提供模式识别算法提供的类似质量的输出。

1 概观编辑

模式识别通常根据用于生成输出值的学习过程的类型来分类。监督学习假设一组训练数据 (训练集)已被提供,该组训练数据由一组正确地标记了正确输出的实例组成。然后,学习过程生成试图满足两个有时相互冲突的目标的模型:尽可能好地执行训练数据,并尽可能地推广到新数据(通常,这意味着简单,对于“简单”的一些技术定义,根据奥卡姆剃刀,将在下面讨论)。另一方面,非监督式学习假设训练数据没有被手工标记,并试图在数据中找到固有模式,然后可以使用这些模式来确定新数据实例的正确输出值。[7]最近探索的两者的组合是半监督学习,它使用标记和未标记数据的组合(通常是一小组标记数据与大量未标记数据的组合)。注意,在无监督学习的情况下,可能根本没有训练数据;换句话说,要标记的数据就是训练数据。

请注意,有时不同的术语用于描述相同类型输出的相应监督和非监督学习过程。例如,无监督的等价分类通常被称为聚类,这是基于任务不涉及要提及的训练数据以及基于一些固有的相似性度量,将输入数据分组为 (例如实例之间的距离,被认为是多维向量空间中的向量),而不是将每个输入实例分配到一组预定义的类中。还要注意的是,在一些领域,术语是不同的:例如,在群落生态学,术语“分类”一词被用来指所谓的“聚类”。

为其生成输出值的输入数据被正式称为一个实例。实例由特征向量形式化描述,特征向量共同 构成了实例的所有已知特征的描述。(这些特征向量可以被视为适当的多维空间中的定义点、在向量空间中处理向量的方法也可以相应地应用于它们,例如计算点积或者两个矢量之间的角度。)通常,特征要么是可分类的(也称为名义上的即由一组无序项目中的一个组成,例如“男性”或“女性”的性别,或“A”、“B”、“AB”或“O”的血型),序数(由一组有序项目中的一个组成,例如,“大”、“中”或“小”),整数值(例如,电子邮件中特定单词出现次数的计数)或实值的(例如,血压测量)。通常,分类数据和序数数据被分组在一起;对于整数值和实数值数据也是如此。此外,许多算法仅在分类数据方面工作,并要求实值或整数值数据必须离散化 成组(例如,小于5,在5和10之间,或大于10)。

1.1 概率分类器

许多常见的模式识别算法本质上都是概率性的,他们使用统计推断来为给定的实例找到最佳标签。与简单输出“最佳”标签的其他算法不同,概率算法通常还输出给定标签描述的实例的概率。此外,许多概率算法不仅仅简单的输出单一最佳标签,而是根据一个给定的N值,输出N个具有相关概率的最佳标签。当可能标签的数量相当少时(例如,在分类的情况下),N 可以被设置为输出所有可能标签的概率。概率算法比非概率算法有许多优势:

  • 他们输出与他们的选择相关的置信度值。(注意,一些其他算法也可以输出置信度值,但是通常,只有对于概率算法,该值在数学上基于概率论。非概率置信度值通常不能给出任何特定的含义,仅用于与同一算法输出的其他置信度值进行比较。)
  • 相应地,当选择某一特定输出的置信度值太低时,他们可以放弃。
  • 由于概率输出,概率模式识别算法可以更有效地结合到更大的机器学习任务中,部分或完全避免了错误传播问题。

1.2 重要特征变量的数量

特征选择算法试图直接删除冗余或不相关的特征。概述了特征选择,总结了方法和挑战。[8]特征选择的复杂性由于其非单调性,是一个优化问题,给定n个特征,需要去研究有  个特征的子集。分支定界算法[9]确实降低了这种复杂性,但是对于可用的较大的n值来说,这种计算还是很难处理的。[10]

转换原始特征向量的技术(特征提取)有时在应用模式匹配算法之前使用。例如,特征提取算法试图使用数学技术,如主成分分析 (PCA),将高维特征向量简化为更容易处理和编码更少冗余的较小维度向量。特征选择特征提取之间的区别在于,特征提取后得到的特征与原始特征的种类不同,不容易解释,而特征选择后留下的特征只是原始特征的子集。

2 问题陈述(有监督的)编辑

形式上,有监督的模式识别问题可以表述如下:给定一个未知函数  (正确数据)以映射输入实例  到输出标签  ,以及训练数据  用于假设表示映射的精确实例,产生一个函数  以尽可能接近正确的映射  。(例如,如果问题是过滤垃圾邮件,那么  是电子邮件的某种表示形式,而  不是“垃圾邮件”就是“非垃圾邮件”)。为了使这成为一个定义明确的问题,需要严格定义“尽可能接近”。在决策理论中,这是通过指定一个损失函数或成本函数来定义的,该函数将一个特定的值赋值给由于产生错误标签而导致的“损失”。然后,目标是最小化预期损失,预期超过的概率分布  。在实践中,既没有  也没有函数  ,但是能通过收集大量的  并用正确的  来计算出来(这是一个耗时的过程,通常是可以收集的这类数据量的限制因素)。特定的损失函数取决于预测的标签类型。例如,在分类的情况下,简单的零一损失函数通常就足够了。这相当于简单的将1的损失分配给任何不正确的标记,并且意味着最优分类器最小化独立试验数据上的错误率(即,计算学习函数的实例分数  标签错误,这相当于最大化正确分类实例的数量)。学习过程的目标是最小化“典型”测试集的错误率(最大化正确性)。

对于概率模式识别器,问题是在给定特定输入实例的情况下估计每个可能输出标签的概率,即估计形式的函数

 

其中特征向量输入是  ,和函数f 通常由一些参数参数化  [11]在对该问题的判别方法中,f 是直接估计出来的。然而,在启发式方法中,逆概率  是估计并结合先验概率  使用贝叶斯规则得到的,如下所示:

 

当标签是连续分布(例如,在回归分析),分母部分包括综合而不是单纯求和:

 

 的值通常是通过使用最大后验概率(MAP)估计。找到同时满足两个冲突对象的最佳值:对训练数据尽可能好地执行(最小差错率)并找到最简单的可能模型。本质上,这结合了极大似然估计和正则化过程,这有利于更简单的模型而不是更复杂的模型。在一个贝叶斯上下文中,对于不同的  的值,正则化过程可以被看作是先验概率  。数学上:

 

这里的  是用于随后的评估程序中的值    中的后验概率  ,由下式给出:

 

在这个问题的贝叶斯方法中,不是选择单个参数向量  ,新实例给定标签的概率  是通过对所有可能的  ,根据后验概率加权而得到:

 

2.1 频率论或贝叶斯模式识别方法

第一个模式分类器——由费希尔提出的线性判别器——是在频率论传统中发展起来的。频率论方法要求模型参数被认为是未知但客观的。然后根据收集的数据计算(估计)参数。对于线性判别式,这些参数是平均向量和协方差矩阵。还有每一类的概率  从收集的数据集估计。请注意,在模式分类器中使用“贝叶斯规则”并不能使分类方法接近贝叶斯。

贝叶斯统计起源于希腊哲学,在那里已经区分了“先验”和“后验”知识。后来,康德定义了他在观察之前的先验已知和从观察中获得的经验知识之间的区别。在贝叶斯模式分类器中,类概率  可以由用户选择,这是先验的。此外,量化为先验参数值的经验可以通过经验观察来加权——例如,使用Beta-(共轭先验)和狄利克雷分布。贝叶斯方法有助于主观概率形式的专家知识和客观观察之间的无缝混合。

概率模式分类器可以根据频率论或贝叶斯方法使用。

3 使用编辑

这张脸是通过特殊的软件自动检测出来的。

在医学中,模式识别是计算机辅助诊断(CAD)系统的基础。计算机辅助诊断描述了一种支持医生解释和发现的程序。模式识别技术的其他典型应用有自动的语音识别,将文本分成几类(例如,垃圾邮件/非垃圾邮件消息)手写邮政编码的自动识别,在自动信封上图像识别或者从医学表格中提取手写图像。[12]最后两个例子形成模式识别的字主题图像分析,它处理作为模式识别系统输入的数字图像。[13][14]

光学字符识别是模式分类器应用的经典例子。签名的方法是从1990年开始用手写笔和覆盖物捕捉的。笔划、速度、相对最小值、相对最大值、加速度和压力用于唯一识别和确认身份。银行首先被提供这种技术,但是满足于向联邦存款保险公司收取任何银行欺诈的费用,并且不想给客户带来不便。

人工神经网络(神经网络分类器)和深度学习在图像处理中有许多实际应用,例如:

  • 识别和认证:例如,车牌识别、[15]指纹分析、人脸检测/验证[16]、以及基于语音的认证。[17]
  • 医疗诊断:例如宫颈癌筛查(Papnet)[18]、乳房肿瘤或心音;
  • 防御:各种导航和制导系统、目标识别系统、形状识别技术等。

关于上述神经网络在图像处理中的应用的讨论,例如[19]

在心理学中,模式识别(理解和识别物体)与感知密切相关,这解释了人类如何获得有意义的感官输入。模式识别可以用两种不同的方式来考虑:第一种是模板匹配,第二种是特征检测。模板是用于生产相同比例项目的模式。模板匹配假设表明,输入的刺激与长期记忆中的模板进行比较。如果匹配,刺激被识别。特征检测模型,如字母分类的Pandemonium系统(Selfridge,1959),建议将刺激分解为它们的组成部分进行识别。例如,大写字母E有三条水平线和一条垂直线。[20]

4 算法编辑

模式识别算法取决于标签输出的类型,学习是受监督的还是不受监督的,以及算法本质上是统计的还是非统计的。统计算法可以进一步分为生成算法和判别算法。

4.1 分类算法(监督的算法预测分类标签)

参数:[21]

  • 线性判别分析
  • 二次判别分析
  • 最大熵分类器(又名逻辑回归,多项逻辑回归):请注意,逻辑回归是一种分类算法,尽管它有名称。(这个名字来源于逻辑回归使用线性回归模型的扩展来建模输入在特定类中的概率。)

非参数:[22]

  • 决策树,决策列表
  • 核估计和K最近邻算法
  • 朴素贝叶斯分类器
  • 神经网络多层感知器
  • 感知器
  • 支持向量机
  • 基因表达式编程

4.2 聚类算法(无监督算法预测分类标签)

  • 绝对的混合模型
  • 层次聚类(凝聚或分裂)
  • K-表示聚类
  • 相关聚类
  • 核主成分分析(核主成分分析)

4.3 整体学习算法(监督的元算法用于将多个学习算法组合在一起)

  • Boosting(元算法)
  • Bagging算法(“打包”)
  • 系综平均法
  • 专家混合物,专家分层混合物

4.4 预测任意结构(多组)标签的通用算法

  • 贝叶斯网络
  • 马尔可夫随机场

4.5 多线性子空间学习算法(使用张量表示预测多维数据的标签)

无监督:

  • 多线性主成分分析 (MPCA)

4.6 实值序列标记算法(预测实值标记的序列)

监督:

  • 卡尔曼滤波器
  • 粒子过滤器

4.7 回归算法(预测实值标签)

监督:

  • 高斯过程回归(克里金法)
  • 线性回归和扩展
  • 神经网络和深度学习方法

无监督:

  • 独立成分分析
  • 主成分分析

4.8 序列标记算法(预测分类标记的序列)

监督:

  • 条件随机域
  • 隐马尔可夫模型(隐马尔科夫模型)
  • 最大熵马尔可夫模型(MEMMs)
  • 递归神经网络

无监督:

  • 隐马尔可夫模型(隐马尔科夫模型)
  • 动态时间扭曲 (DTW)

参考文献

  • [1]

    ^Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning (PDF). Springer. p. vii. Pattern recognition has its origins in engineering, whereas machine learning grew out of computer science. However, these activities can be viewed as two facets of the same field, and together they have undergone substantial development over the past ten years..

  • [2]

    ^Tveter, Donald (1998). The Pattern Recognition Basis of Artificial Intelligence..

  • [3]

    ^(Bishop 2006,p. 1).

  • [4]

    ^Howard, W.R. (2007-02-20). "Pattern Recognition and Machine Learning20072Christopher M. Bishop. Pattern Recognition and Machine Learning. Heidelberg, Germany: Springer 2006. i‐xx, 740 pp., ISBN: 0‐387‐31073‐8 $74.95 Hardcover". Kybernetes. 36 (2): 275. doi:10.1108/03684920710743466. ISSN 0368-492X..

  • [5]

    ^"Sequence Labeling" (PDF). utah.edu..

  • [6]

    ^Ian., Chiswell (2007). Mathematical logic, p. 34. Oxford University Press. ISBN 9780199215621. OCLC 799802313..

  • [7]

    ^Carvalko, J.R., Preston K. (1972). "On Determining Optimum Simple Golay Marking Transforms for Binary Image Processing". IEEE Transactions on Computers. 21 (12): 1430–33. doi:10.1109/T-C.1972.223519.CS1 maint: Multiple names: authors list (link)。.

  • [8]

    ^Isabelle Guyon氯网,andréelisseiff(2003)。变量和特征选择简介。机器学习研究杂志,第3卷,1157-1182。链接.

  • [9]

    ^Iman Foroutan; Jack Sklansky (1987). "Feature Selection for Automatic Classification of Non-Gaussian Data". IEEE Transactions on Systems, Man and Cybernetics. 17 (2): 187–198. doi:10.1109/TSMC.1987.4309029.。.

  • [10]

    ^Mineichi Kudo; Jack Sklansky (2000). "Comparison of algorithms that select features for pattern classifiers". Pattern Recognition. 33 (1): 25–41. CiteSeerX 10.1.1.55.1718. doi:10.1016/S0031-3203(99)00041-2.。.

  • [11]

    ^对于线性判别分析,参数向量由两个平均向量组成和和公共协方差矩阵 。.

  • [12]

    ^Milewski, Robert; Govindaraju, Venu (31 March 2008). "Binarization and cleanup of handwritten text from carbon copy medical form images". Pattern Recognition. 41 (4): 1308–1315. doi:10.1016/j.patcog.2007.08.018..

  • [13]

    ^Richard O. Duda, Peter E. Hart, David G. Stork (2001). Pattern classification (2nd ed.). Wiley, New York. ISBN 978-0-471-05669-0.CS1 maint: Multiple names: authors list (link).

  • [14]

    ^R.布鲁内利,计算机视觉中的模板匹配技术:理论与实践威利,ISBN 978-0-470-51706-2,2009.

  • [15]

    ^《自动车牌识别教程》 http://anpr-tutorial.com/.

  • [16]

    ^《人脸识别的神经网络》,教科书《机器学习》第4章的附录。.

  • [17]

    ^Poddar, Arnab; Sahidullah, Md; Saha, Goutam (March 2018). "Speaker Verification with Short Utterances: A Review of Challenges, Trends and Opportunities". IET Biometrics. 7 (2): 91–101. doi:10.1049/iet-bmt.2017.0065..

  • [18]

    ^宫颈筛查用PAPNET Archived 2012-07-08 at Archive.today "Archived copy". Archived from the original on 2012-07-08. Retrieved 2012-05-06.CS1 maint: Archived copy as title (link).

  • [19]

    ^Egmont-Petersen, M., de Ridder, D., Handels, H. (2002). "Image processing with neural networks - a review". Pattern Recognition. 35 (10): 2279–2301. CiteSeerX 10.1.1.21.5444. doi:10.1016/S0031-3203(01)00178-9.CS1 maint: Multiple names: authors list (link).

  • [20]

    ^"A-level Psychology Attention Revision - Pattern recognition | S-cool, the revision website". S-cool.co.uk. Retrieved 2012-09-17..

  • [21]

    ^假设每个类的特征分布的已知分布形状,例如高斯形状。.

  • [22]

    ^没有关于每个类的特征分布形状的分布假设。.

阅读 8071
版本记录
  • 暂无