机器学习（综述）

贡献者：待更新

　　本文根据 CC-BY-SA 协议转载翻译自维基百科相关文章。

　　 机器学习（ML）是人工智能的一个研究领域，关注于开发和研究能够从数据中学习并对未见过的数据进行泛化的统计算法，从而在没有明确指令的情况下执行任务。[1] 深度学习领域的进展使得神经网络在性能上超越了许多先前的方法。[2]

　　机器学习应用于许多领域，包括自然语言处理、计算机视觉、语音识别、电子邮件过滤、农业和医学。[3][4] 将机器学习应用于商业问题的领域被称为预测分析。

　　统计学和数学优化（数学编程）方法构成了机器学习的基础。数据挖掘是一个相关的研究领域，专注于通过无监督学习进行探索性数据分析（EDA）。[6][7]

　　从理论角度来看，可能大致正确（PAC）学习为描述机器学习提供了一个框架。

1. 历史

　　 “机器学习” 这一术语由 IBM 员工、计算机游戏和人工智能领域的先驱亚瑟·塞缪尔（Arthur Samuel）于 1959 年创造。[8][9] 在这一时期，“自我学习计算机” 这个同义词也曾被使用。[10][11]

　　尽管最早的机器学习模型是在 1950 年代由亚瑟·塞缪尔发明的，该程序用于计算每方在跳棋中的获胜概率，但机器学习的历史可以追溯到几十年来人类对研究人类认知过程的渴望和努力。[12] 1949 年，加拿大心理学家唐纳德·赫布（Donald Hebb）出版了《行为的组织》（The Organization of Behavior）一书，在书中他提出了通过神经元之间特定交互形成的理论神经结构。[13] 赫布关于神经元相互作用的模型为人工智能和机器学习算法在节点（或计算机用来传输数据的人工神经元）下如何工作奠定了基础。[12] 其他研究人类认知系统的学者也为现代机器学习技术做出了贡献，包括逻辑学家沃尔特·皮茨（Walter Pitts）和沃伦·麦卡洛克（Warren McCulloch），他们提出了早期的神经网络数学模型，旨在开发模拟人类思维过程的算法。[12]

　　到 1960 年代初，雷神公司（Raytheon）开发了一种实验性的 “学习机器”，名为 Cybertron，它采用打孔带存储，用于分析声纳信号、心电图和语音模式，使用的是基础的强化学习。它通过人工操作员/教师反复 “训练” 以识别模式，并配备了一个 “错误” 按钮，用于在做出错误决策时促使其重新评估。[14] 1960 年代有关机器学习的代表性书籍之一是尼尔森（Nilsson）的《学习机器》一书，主要讨论了用于模式分类的机器学习。[15] 与模式识别相关的兴趣持续到 1970 年代，正如 Duda 和 Hart 在 1973 年所描述的那样。[16] 1981 年，有报告讨论了使用教学策略，使人工神经网络学习从计算机终端识别 40 个字符（26 个字母、10 个数字和 4 个特殊符号）。[17]

　　汤姆·M·米切尔（Tom M. Mitchell）提出了机器学习领域算法的广泛引用的正式定义：“如果一个计算机程序在经验 E 的基础上，针对某些任务类别 T，通过性能度量 P，在 T 类别中的任务执行表现有所提高，则该计算机程序可以说是从经验 E 中学习。”[18] 这个关于机器学习所涉及任务的定义提供了一个基本的操作性定义，而不是从认知角度来定义该领域。这一概念沿袭了阿兰·图灵（Alan Turing）在其论文《计算机器与智能》中的提议，其中 “机器能思考吗？” 的问题被 “机器能做我们（作为思维实体）能够做的事吗？” 所取代。[19]

　　现代机器学习有两个目标。一是根据已开发的模型对数据进行分类；另一目的是根据这些模型对未来的结果进行预测。一个专门用于数据分类的假设性算法，可能会使用计算机视觉技术，结合监督学习来训练算法识别癌变的痣。用于股票交易的机器学习算法可能会向交易员提供未来潜在的预测。[20]

2. 与其他领域的关系

人工智能

图 1：机器学习作为人工智能的一个子领域[21]

　　作为一项科学事业，机器学习源自于对人工智能（AI）的探索。在人工智能作为学术学科的早期，一些研究者希望让机器从数据中学习。他们试图通过各种符号方法来解决这个问题，以及当时被称为 “神经网络” 的方法；这些方法大多是感知机和其他模型，后来被发现实际上是统计学中广义线性模型的再发明。[22] 概率推理也被应用，特别是在自动化医疗诊断中。[23]: 488

　　然而，随着对逻辑、知识为基础的方法的日益重视，人工智能与机器学习之间出现了分歧。概率系统面临数据获取和表示的理论和实践问题。[23]: 488 到 1980 年，专家系统已经主导了人工智能，统计学也不再受到青睐。[24] 虽然符号/知识为基础的学习方法在人工智能中仍然有所研究，推动了归纳逻辑编程（ILP）的发展，但更多的统计学研究现在已经脱离了人工智能的范畴，转向了模式识别和信息检索。[23]: 708–710, 755 神经网络研究在同一时期也被人工智能和计算机科学放弃。这一领域也被从其他学科的研究者所延续，包括约翰·霍普菲尔德、戴维·鲁梅哈特和杰弗里·辛顿。他们的主要成功是在 1980 年代中期重新发明了反向传播算法。[23]: 25

　　机器学习（ML）在 1990 年代重新组织并被认定为独立的学科，开始蓬勃发展。该领域的目标从实现人工智能转向解决具有实际性质的可解问题。它的重点从人工智能继承的符号方法转向了借鉴统计学、模糊逻辑和概率论的方法和模型。[24]

数据压缩

　　机器学习与数据压缩之间有着紧密的联系。一个系统，如果能够根据整个历史数据预测序列的后验概率，就可以用于最优的数据压缩（通过对输出分布使用算术编码）。反过来，一个最优的压缩器也可以用于预测（通过找到在给定前历史数据的情况下最能压缩的符号）。这种等价性被用作使用数据压缩作为 “通用智能” 基准的理由。[25][26][27]

　　另一种观点认为，压缩算法隐式地将字符串映射到隐式特征空间向量中，基于压缩的相似性度量计算这些特征空间中的相似性。对于每个压缩器 C(.)，我们定义一个关联的向量空间 ℵ，使得 C(.) 将输入字符串 x 映射到向量范数 ||~x||。由于空间限制，无法对所有压缩算法的特征空间进行详尽的检查；因此，选择检查三种典型的无损压缩方法：LZW、LZ77 和 PPM。[28]

　　根据 AIXI 理论，这一点在 Hutter 奖中有更直接的解释，x 的最佳压缩是生成 x 的最小软件。例如，在该模型中，zip 文件的压缩大小包括 zip 文件和解压缩软件，因为没有这两者就无法解压，但可能存在一个更小的组合形式。

　　由 AI 驱动的音频/视频压缩软件的例子包括 NVIDIA Maxine、AIVC。[29] 可以执行 AI 驱动图像压缩的软件的例子包括 OpenCV、TensorFlow、MATLAB 的图像处理工具箱（IPT）和高保真生成图像压缩。[30]

　　在无监督机器学习中，K-means 聚类可以通过将相似的数据点分组成簇来压缩数据。该技术简化了处理缺乏预定义标签的大规模数据集，广泛应用于图像压缩等领域。[31]

　　数据压缩旨在减少数据文件的大小，从而提高存储效率并加快数据传输速度。K-means 聚类是一种无监督机器学习算法，用于将数据集划分为指定数量的簇 k，每个簇由其点的质心表示。这个过程将大规模数据集压缩为一个更紧凑的代表性点集。特别在图像和信号处理方面，K-means 聚类通过将一组数据点替换为其质心，帮助减少数据量，同时大大减少所需的存储空间，保留原始数据的核心信息。[32]

　　大语言模型（LLMs）也能实现无损数据压缩，正如 DeepMind 在其 Chinchilla 70B 模型中的研究所示。DeepMind 开发的 Chinchilla 70B 有效地压缩了数据，超越了传统方法，如便携式网络图形（PNG）图像和无损音频压缩编码（FLAC）音频。它成功地将图像和音频数据压缩至其原始大小的 43.4% 和 16.4%。[33]

数据挖掘

　　机器学习和数据挖掘通常使用相同的方法，并且有很大的重叠，但尽管机器学习侧重于基于从训练数据中学习到的已知特征进行预测，数据挖掘则侧重于发现数据中（之前）未知的特征（这是数据库中知识发现的分析步骤）。数据挖掘使用了许多机器学习方法，但其目标不同；另一方面，机器学习也使用数据挖掘方法作为 “无监督学习” 或作为预处理步骤来提高学习者的准确性。这两个研究领域之间的许多混淆（尽管它们通常有独立的会议和期刊，ECML PKDD 是一个主要的例外）来自于它们所采用的基本假设：在机器学习中，性能通常是根据重现已知知识的能力来评估的，而在知识发现和数据挖掘（KDD）中，关键任务是发现以前未知的知识。在已知知识的评估中，未加信息的（无监督）方法通常会被其他监督方法超越，而在典型的 KDD 任务中，由于训练数据不可用，监督方法不能使用。

　　机器学习还与优化密切相关：许多学习问题被表述为在训练集示例上最小化某个损失函数。损失函数表示训练中模型的预测与实际问题实例之间的差异（例如，在分类中，人们希望为实例分配标签，而模型被训练来正确预测一组示例的预先分配标签）。[34]

泛化

　　描述各种学习算法的泛化能力是当前研究的一个活跃话题，特别是对于深度学习算法。

统计学

　　机器学习和统计学在方法上密切相关，但在主要目标上有所不同：统计学通过样本推断总体，而机器学习则发现可泛化的预测模式。[35] 根据迈克尔·I·乔丹（Michael I. Jordan）的说法，机器学习的思想，从方法论原则到理论工具，在统计学中有着悠久的历史。[36] 他还提出了 “数据科学” 这一术语，作为一个占位符来称呼整个领域。[36]

　　传统的统计分析需要事先选择一个最适合研究数据集的模型。此外，分析时仅包括基于以往经验认为重要或理论上相关的变量。相比之下，机器学习并不依赖于预先结构化的模型；相反，数据通过检测潜在的模式来塑造模型。使用更多的变量（输入）来训练模型，最终模型的准确性将更高。[37]

　　莱奥·布雷曼（Leo Breiman）区分了两种统计建模范式：数据模型和算法模型，[38] 其中 “算法模型” 指的就是像随机森林（Random Forest）这样的机器学习算法。

　　一些统计学家已经采纳了机器学习的方法，形成了他们称之为统计学习的结合领域。[39]

统计物理

　　源自无序系统深厚物理学的分析和计算技术可以扩展到大规模问题，包括机器学习，例如，用于分析深度神经网络的权重空间。[40] 因此，统计物理学在医学诊断领域找到了应用。[41]

3. 理论

　　主要文章：计算学习理论和统计学习理论学习者的核心目标之一是从经验中进行泛化。[5][42] 在此语境下，泛化指的是学习机器在经历过学习数据集后，能够在新的、未见过的示例/任务上准确执行的能力。训练示例来自某些通常未知的概率分布（被认为代表事件发生的空间），学习者必须构建一个关于该空间的通用模型，使其能够在新的案例中做出足够准确的预测。

　　机器学习算法及其性能的计算分析是理论计算机科学的一个分支，称为计算学习理论，通过可能近似正确学习（PAC）模型进行研究。由于训练集是有限的，并且未来是不确定的，学习理论通常不能提供算法性能的保证。相反，通常会给出性能的概率边界。偏差-方差分解是量化泛化误差的一种方法。

　　为了在泛化的语境中获得最佳性能，假设的复杂性应与数据背后的函数复杂性相匹配。如果假设的复杂性低于函数的复杂性，则模型对数据拟合不足。如果响应中增加了模型的复杂性，则训练误差减少。但如果假设过于复杂，则模型容易过拟合，泛化能力会变差。[43]

　　除了性能边界，学习理论家还研究学习的时间复杂度和可行性。在计算学习理论中，如果某个计算可以在多项式时间内完成，那么它被认为是可行的。时间复杂度的结果有两种：正向结果表明某一类函数可以在多项式时间内学习；负向结果则表明某些类的函数无法在多项式时间内学习。

4. 方法

图 2：在监督学习中，训练数据会标注期望的答案，而在无监督学习中，模型会在未标注的数据中识别模式或结构。

　　机器学习方法通常分为三大类，这些类别对应不同的学习范式，具体取决于学习系统可用的 “信号” 或 “反馈” 的性质：

监督学习：计算机被提供一组输入示例及其对应的期望输出，这些输出由 “教师” 提供，目标是学习一个通用规则，将输入映射到输出。
无监督学习：学习算法没有标签，必须自行在输入中找到结构。无监督学习可以是一个独立的目标（发现数据中的隐藏模式），也可以是实现某个目标的手段（特征学习）。
强化学习：计算机程序与一个动态环境进行交互，必须执行特定目标（例如驾驶车辆或与对手玩游戏）。在导航问题空间时，程序会收到类似奖励的反馈，它会尽量最大化这些反馈。[5]

　　尽管每种算法都有其优点和局限性，但没有一种算法适用于所有问题。[44][45][46]

监督学习

图 3：支持向量机是一种监督学习模型，它将数据分成由线性边界分隔的区域。在这里，线性边界将黑色圆圈与白色圆圈分开。

　　监督学习算法通过建立一个数学模型来学习一组包含输入和期望输出的数据。[47] 这些数据被称为训练数据，包含一组训练样本。每个训练样本都有一个或多个输入以及期望的输出，输出也称为监督信号。在数学模型中，每个训练样本被表示为一个数组或向量，有时称为特征向量，训练数据则表示为一个矩阵。通过对目标函数进行迭代优化，监督学习算法学习一个函数，该函数可以用来预测与新输入相关的输出。[48] 一个优化的函数可以使算法正确地确定未包含在训练数据中的输入对应的输出。当一个算法随着时间推移提高其输出或预测的准确性时，我们称其已经学会执行该任务。[18]

　　监督学习算法的类型包括主动学习、分类和回归。[49] 分类算法用于输出被限制为一组有限值的情况，而回归算法用于输出可能具有某个范围内任意数值的情况。例如，对于一个过滤电子邮件的分类算法，输入将是一个到达的电子邮件，输出将是该邮件应该存入的文件夹名称。回归的例子包括预测一个人的身高或未来的气温。[50]

　　相似度学习是与回归和分类密切相关的监督学习领域，其目标是通过使用相似度函数来学习如何判断两个对象的相似性或相关性。它在排名、推荐系统、视觉身份跟踪、面部验证和语音验证等领域有广泛应用。

无监督学习

　　无监督学习算法用于发现那些没有标签、分类或归类的数据中的结构。与监督学习通过反馈来学习不同，无监督学习算法通过识别数据中的共性，并根据每个新数据中是否存在这些共性做出反应。无监督学习的核心应用包括聚类、降维和密度估计。

　　聚类分析是将一组观察结果分配到多个子集（称为聚类）中的过程，使得同一聚类内的观察结果在一个或多个预定标准下相似，而来自不同聚类的观察结果则是不同的。不同的聚类技术对数据的结构有不同的假设，通常通过某种相似性度量来定义，并通过内部紧密度（同一聚类内成员之间的相似性）和分离度（不同聚类之间的差异）等方式来评估。其他方法则基于估计的密度和图连接性。

　　一种特殊类型的无监督学习，称为自监督学习，涉及通过从数据本身生成监督信号来训练模型。

半监督学习

　　半监督学习介于无监督学习（没有任何标签的训练数据）和监督学习（完全有标签的训练数据）之间。在半监督学习中，部分训练样本缺少标签，但许多机器学习研究人员发现，当无标签数据与少量有标签数据结合使用时，可以显著提高学习的准确性。

　　在弱监督学习中，训练标签是噪声的、有限的或不精确的；然而，这些标签通常更容易获得，从而形成更大的有效训练集。

强化学习

图 4

　　强化学习是机器学习的一个领域，关注软件代理如何在环境中采取行动，以最大化某种累积奖励的概念。由于其广泛的适用性，该领域在许多其他学科中也有研究，如博弈论、控制理论、运筹学、信息理论、基于仿真的优化、多智能体系统、群体智能、统计学和遗传算法。在强化学习中，环境通常表示为马尔可夫决策过程（MDP）。许多强化学习算法使用动态编程技术。强化学习算法不假设对 MDP 的精确数学模型有已知信息，当精确模型不可行时，便使用这些算法。强化学习算法被用于自动驾驶车辆或在与人类对手对战时学习游戏。

降维

　　降维是通过获得一组主变量来减少考虑的随机变量数量的过程。[56] 换句话说，它是减少特征集的维度的过程，也称为 “特征数量”。大多数降维技术可以视为特征消除或特征提取。降维的常用方法之一是主成分分析（PCA）。PCA 涉及将高维数据（例如，3D）转换为较小的空间（例如，2D）。流形假设提出，高维数据集沿着低维流形分布，许多降维技术都假设这一点，导致了流形学习和流形正则化的研究领域。

其他类型

　　还有一些方法并不完全符合这三种分类，有时同一个机器学习系统会使用多种方法。例如，主题建模、元学习。[57]

　　 自学习

　　自学习，作为一种机器学习范式，在 1982 年被引入，同时提出了一种能够自学习的神经网络，名为交叉条形自适应阵列（CAA）。[58] 它是在没有外部奖励和外部教师建议的情况下进行学习。CAA 自学习算法以交叉条形的方式计算关于行为和情绪（对后果情况的感受）的决策。该系统由认知与情感之间的互动驱动。[59] 自学习算法更新一个记忆矩阵 \( W = ||w(a,s)|| \)，在每次迭代中执行以下机器学习例程：

在情境 \( s \) 中执行行为 \( a \)
接收后果情境 \( s' \)
计算处于后果情境中的情绪 \( v(s') \)
更新交叉条形记忆 \( w'(a,s) = w(a,s) + v(s') \)

　　这是一个只有一个输入（情境）和一个输出（行为或动作 \( a \)）的系统。没有来自环境的单独强化输入或建议输入。反向传播的值（次级强化）是对后果情境的情绪反应。CAA 存在于两个环境中，一个是行为环境，它在其中表现，另一个是遗传环境，在这里它仅仅接收一次关于将要遇到的情境的初步情绪。收到来自遗传环境的基因组（物种）向量后，CAA 在一个包含既有可取又有不可取情境的环境中学习目标导向行为。[60]

　　 特征学习

　　特征学习（Feature learning）是一种学习算法，旨在发现训练过程中提供的输入的更好表示。[61] 经典的例子包括主成分分析（PCA）和聚类分析。特征学习算法，也称为表示学习算法，通常试图保持输入中的信息，但也会以一种方式进行转化，使其更有用，通常作为执行分类或预测之前的预处理步骤。这种技术允许重建来自未知数据生成分布的输入，同时不一定忠实于该分布下不太可能的配置。这取代了手动特征工程，并允许机器既学习特征又使用这些特征来执行特定任务。

　　特征学习可以是监督式学习或无监督式学习。在监督式特征学习中，特征通过标记的输入数据来学习。例子包括人工神经网络、多层感知器和监督字典学习。在无监督式特征学习中，特征通过未标记的输入数据来学习。例子包括字典学习、独立成分分析、自动编码器、矩阵分解[62]和各种形式的聚类[63][64][65]。

　　流形学习算法试图在低维表示的约束下进行学习。稀疏编码算法试图在学习表示稀疏的约束下进行学习，这意味着数学模型有很多零值。多线性子空间学习算法旨在直接从多维数据的张量表示中学习低维表示，而无需将它们重新塑形为更高维的向量。[66] 深度学习算法发现多层次的表示，或特征的层次结构，其中更高层次、更抽象的特征是基于（或生成）较低层次特征定义的。有人认为，智能机器是指能够学习出一个表示，解开解释观察数据的潜在变化因素的机器。[67]

　　特征学习的动机在于，机器学习任务（如分类）通常需要数学上和计算上便于处理的输入。然而，现实世界的数据（如图像、视频和传感数据）并未通过算法尝试定义特定的特征。另一种方法是通过检查来发现这些特征或表示，而不依赖于显式的算法。

　　 稀疏字典学习

　　稀疏字典学习是一种特征学习方法，其中训练样本被表示为基函数的线性组合，并假设其为稀疏矩阵。这种方法是强 NP 难题，难以近似求解。[68] 稀疏字典学习的一个流行启发式方法是 k-SVD 算法。稀疏字典学习已应用于多个领域。在分类中，问题是确定一个之前未见过的训练样本属于哪个类别。对于已经构建了每个类别的字典，新训练样本会与在相应字典中稀疏表示最好的类别关联。稀疏字典学习还应用于图像去噪。其关键思想是，干净的图像补丁可以通过图像字典进行稀疏表示，而噪声则不能。[69]

　　 异常检测

　　在数据挖掘中，异常检测，也称为离群点检测，是识别那些与大多数数据显著不同的稀有项、事件或观察结果的过程，这些异常引起了怀疑。[70] 通常，异常项代表一个问题，如银行欺诈、结构缺陷、医疗问题或文本中的错误。异常也被称为离群点、新奇、噪声、偏差和例外。[71]

　　特别是在滥用和网络入侵检测的背景下，感兴趣的对象往往不是稀有的对象，而是意外的活动中断。这种模式不符合将稀有对象定义为离群点的常见统计学定义。许多离群点检测方法（特别是无监督算法）在这种数据上会失败，除非进行适当的聚合。相反，聚类分析算法可能能够检测到这些模式所形成的微聚类。[72]

　　异常检测技术通常分为三大类。[73] 无监督异常检测技术在一个未标记的测试数据集中检测异常，假设数据集中的大多数实例是正常的，通过寻找与数据集其他部分最不匹配的实例。监督异常检测技术要求一个已经标记为 “正常” 和 “异常” 的数据集，并通过训练分类器来检测异常（与许多其他统计分类问题的主要区别在于离群点检测的固有不平衡性）。半监督异常检测技术从给定的正常训练数据集中构建一个表示正常行为的模型，然后测试测试实例是否可能由该模型生成。

　　 机器人学习

　　机器人学习受到多种机器学习方法的启发，从监督学习、强化学习[74][75]到最终的元学习（例如 MAML）。

　　 关联规则

　　关联规则学习是一种基于规则的机器学习方法，用于发掘大规模数据库中变量之间的关系。其目的是通过某种 “有趣性” 度量来识别数据库中发现的强规则。[76]

　　基于规则的机器学习是指任何识别、学习或演化 “规则” 的机器学习方法，用于存储、操作或应用知识。基于规则的机器学习算法的定义特征是识别和利用一组关系规则，这些规则共同代表系统所捕获的知识。这与其他常见的机器学习算法形成对比，后者通常识别一个单一的模型，这个模型可以普遍应用于任何实例，以进行预测。[77] 基于规则的机器学习方法包括学习分类系统、关联规则学习和人工免疫系统。

　　基于强规则的概念，Rakesh Agrawal、Tomasz Imieliński 和 Arun Swami 引入了关联规则，用于发现大型事务数据（如超市销售点系统记录的数据）中产品之间的规律。[78] 例如，在超市销售数据中发现的规则 { 洋葱, 土豆 } ⇒ { 汉堡包 } 表示如果顾客同时购买洋葱和土豆，他们很可能还会购买汉堡肉。此类信息可作为决定营销活动（如促销定价或产品摆放）的依据。除了市场购物篮分析，关联规则现在还广泛应用于包括网页使用挖掘、入侵检测、连续生产和生物信息学等应用领域。与序列挖掘不同，关联规则学习通常不考虑事务内或事务间项目的顺序。

　　学习分类器系统（LCS）是一类基于规则的机器学习算法，结合了发现组件（通常是遗传算法）和学习组件，执行监督学习、强化学习或无监督学习。它们寻求识别一组上下文相关的规则，这些规则共同存储并以分段的方式应用知识，以进行预测。[79]

　　归纳逻辑编程（ILP）是一种利用逻辑编程作为输入示例、背景知识和假设的统一表示的规则学习方法。给定已知背景知识的编码和一组作为逻辑事实数据库表示的示例，ILP 系统将推导出一个假设的逻辑程序，该程序涵盖所有正例且没有负例。归纳编程是一个相关领域，它考虑任何类型的编程语言来表示假设（不仅仅是逻辑编程），如函数式程序。

　　归纳逻辑编程在生物信息学和自然语言处理中特别有用。Gordon Plotkin 和 Ehud Shapiro 为逻辑环境中的归纳机器学习奠定了初步的理论基础。[80][81][82] Shapiro 在 1981 年构建了他们的第一个实现（模型推理系统）：一个 Prolog 程序，通过正负示例归纳推导逻辑程序。[83] 这里的 “归纳” 一词指的是哲学中的归纳法，指提出一个理论来解释观察到的事实，而不是数学归纳法，即证明某个属性适用于一个有序集的所有成员。

5. 模型

　　机器学习模型是一种数学模型，一旦在给定的数据集上 “训练” 完成，就可以用于对新数据进行预测或分类。在训练过程中，学习算法通过迭代调整模型的内部参数，以最小化预测中的误差。[84] 从广义上讲，"模型"这个术语可以指代多个层次的具体性，从一类模型及其相关的学习算法，到一个完全训练的模型，其中所有的内部参数都已调优。[85]

　　已使用并研究了多种类型的模型用于机器学习系统，选择最合适的模型来完成任务被称为模型选择。

人工神经网络

图 5：人工神经网络是一个互联的节点群体，类似于大脑中庞大的神经元网络。在这里，每个圆形节点代表一个人工神经元，箭头表示从一个人工神经元的输出到另一个人工神经元的输入的连接。

　　人工神经网络（ANNs），或称连接主义系统，是一种计算系统，灵感来源于构成动物大脑的生物神经网络。这些系统通过考虑示例来 “学习” 执行任务，通常不需要编程任何特定任务的规则。

　　 ANN 是基于一组相互连接的单元或节点（称为 “人工神经元”）的模型，这些人工神经元大致模拟生物大脑中的神经元。每个连接，类似于生物大脑中的突触，可以将信息（“信号”）从一个人工神经元传递到另一个。接收到信号的人工神经元可以处理该信号，然后向与其连接的其他人工神经元发送信号。在常见的 ANN 实现中，人工神经元之间的连接上的信号是一个实数，且每个人工神经元的输出是其输入的总和通过某个非线性函数计算得出的。人工神经元之间的连接称为 “边”。人工神经元和边通常具有一个权重，在学习过程中会进行调整。权重会增加或减少连接处信号的强度。人工神经元可能具有一个阈值，只有当信号总和超过该阈值时，信号才会发送。通常，人工神经元会被聚集成层。不同的层可能会对其输入执行不同类型的变换。信号从第一层（输入层）传递到最后一层（输出层），可能在经过多个层的处理后。

　　 ANN 方法最初的目标是以与人脑相同的方式解决问题。然而，随着时间的推移，研究重点转向了执行特定任务，这导致了与生物学的偏离。人工神经网络已被应用于多种任务，包括计算机视觉、语音识别、机器翻译、社交网络过滤、棋盘游戏和视频游戏、以及医学诊断。

　　深度学习由人工神经网络中的多个隐层组成。这种方法试图模拟人脑如何处理光和声音，转化为视觉和听觉。深度学习的一些成功应用包括计算机视觉和语音识别。[86]

决策树

图 6：一棵显示泰坦尼克号乘客生存概率的决策树

　　决策树学习使用决策树作为预测模型，通过观察某个项目的特征（在树枝上表示）来推导该项目的目标值（在叶子节点上表示）。它是统计学、数据挖掘和机器学习中常用的预测建模方法。目标变量可以取离散值的树模型称为分类树；在这些树结构中，叶子节点代表类别标签，树枝表示导致这些类别标签的特征组合。目标变量可以取连续值（通常是实数）的决策树称为回归树。在决策分析中，决策树可以用来直观且明确地表示决策和决策过程。在数据挖掘中，决策树描述了数据，但生成的分类树可以作为决策过程的输入。

支持向量机

　　支持向量机（SVMs），也称为支持向量网络，是一类相关的监督学习方法，广泛应用于分类和回归任务。给定一组训练样本，每个样本被标记为属于两个类别中的一个，SVM 训练算法构建一个模型，预测新的样本是否属于某一类别。SVM 训练算法是一个非概率性的二元线性分类器，尽管存在像 Platt 缩放这样的技术，可以将 SVM 应用于概率分类场景。除了执行线性分类外，SVM 还可以通过所谓的核技巧高效地执行非线性分类，将输入隐式映射到高维特征空间。

回归分析

图 7：线性回归在数据集上的示意图

　　回归分析包含了多种统计方法，用于估计输入变量与其相关特征之间的关系。其最常见的形式是线性回归，其中绘制一条直线，以数学标准（如普通最小二乘法）最佳拟合给定的数据。后者通常通过正则化方法扩展，以减轻过拟合和偏差，例如岭回归。在处理非线性问题时，常用的模型包括多项式回归（例如，Microsoft Excel 中用于趋势线拟合的回归）、逻辑回归（常用于统计分类）或甚至核回归，通过利用核技巧将输入变量隐式映射到更高维度的空间，从而引入非线性。

贝叶斯网络

图 8：一个简单的贝叶斯网络。雨天影响洒水器是否启动，雨天和洒水器都会影响草地是否潮湿。

　　贝叶斯网络、信念网络或有向无环图模型是一种概率图模型，通过有向无环图（DAG）表示一组随机变量及其条件独立性。例如，贝叶斯网络可以表示疾病与症状之间的概率关系。给定症状后，可以利用该网络计算各种疾病存在的概率。存在高效的算法来执行推理和学习。用于建模变量序列（如语音信号或蛋白质序列）的贝叶斯网络称为动态贝叶斯网络。能够表示并解决不确定性下决策问题的贝叶斯网络的一般化形式称为影响图。

高斯过程

图 9：高斯过程回归（预测）与其他回归模型的比较示例[89]

　　高斯过程是一个随机过程，其中该过程中的每一个有限随机变量集合都具有多元正态分布，并依赖于一个预定义的协方差函数或核函数，该函数用于建模点对之间的关系，具体取决于它们的位置。

　　给定一组观察点或输入–输出示例，可以通过观察已知点及其与新点之间的协方差，直接计算新点的输出（即未观察到的输出）作为其输入数据的函数。

　　高斯过程是贝叶斯优化中的常见替代模型，广泛应用于超参数优化。

遗传算法

　　遗传算法（GA）是一种搜索算法和启发式技术，它模仿自然选择的过程，使用变异和交叉等方法生成新的基因型，旨在寻找给定问题的良好解。在机器学习中，遗传算法在 1980 年代和 1990 年代被使用。[90][91] 相反，机器学习技术也被用于提高遗传和进化算法的性能。[92]

信念函数

　　信念函数理论，也称为证据理论或邓普斯特-谢弗理论，是一个用于处理不确定性的推理框架，与其他框架（如概率、可能性理论和不精确概率理论）有一定的联系。这些理论框架可以被视为一种学习器，并具有类似的属性，用于组合证据（例如，邓普斯特组合规则），就像基于概率质量函数（pmf）的贝叶斯方法将概率组合在一起一样。然而，与贝叶斯方法相比，这些信念函数方法有许多需要注意的地方，尤其是在融合无知和不确定性量化时。这些信念函数方法在机器学习领域中通常结合了各种集成方法，以更好地处理学习器的决策边界、低样本量和模糊分类问题，这是标准机器学习方法难以解决的问题。然而，这些算法的计算复杂性取决于命题（类别）的数量，与其他机器学习方法相比，可能导致更高的计算时间。

训练模型

　　通常，机器学习模型需要大量可靠的数据来进行准确的预测。在训练机器学习模型时，机器学习工程师需要针对目标收集大量具有代表性的数据样本。训练集中的数据可以是各种类型的，例如文本语料库、一组图像、传感器数据和来自单个用户的数据。过拟合是训练机器学习模型时需要警惕的问题。由有偏或未经评估的数据训练得到的模型可能导致偏差或不期望的预测。偏差模型可能导致不利后果，进而加剧对社会或目标的负面影响。算法偏差是数据未经过充分准备时可能导致的结果。机器学习伦理学已成为一个研究领域，并逐渐融入到机器学习工程团队中。

　　 联邦学习 联邦学习是一种分布式人工智能的改编形式，用于训练机器学习模型，通过去中心化的训练过程来保护用户隐私，因为无需将数据发送到中心化服务器。通过将训练过程分散到多个设备上，这种方法还提高了效率。例如，Gboard 就使用联邦机器学习在用户的手机上训练搜索查询预测模型，而无需将单个搜索数据发送回 Google。[93]

6. 应用领域

　　机器学习有许多应用，包括：

农业
解剖学
自适应网站
情感计算
天文学
自动化决策
银行业
行为主义
生物信息学
脑机接口
化学信息学
公民科学
气候科学
计算机网络
计算机视觉
信用卡欺诈检测
数据质量
DNA 序列分类
经济学
金融市场分析[94]
一般游戏玩法
手写识别
医疗保健
信息检索
保险
网络欺诈检测
知识图谱嵌入
语言学
机器学习控制
机器感知
机器翻译
市场营销
医学诊断
自然语言处理
自然语言理解
在线广告
优化
推荐系统
机器人运动
搜索引擎
情感分析
序列挖掘
软件工程
语音识别
结构健康监测
句法模式识别
电信
定理证明
时间序列预测
断层重建[95]
用户行为分析

　　在 2006 年，媒体服务提供商 Netflix 举办了首次 “Netflix 奖” 竞赛，旨在寻找一种程序，更好地预测用户偏好，并将其现有的 Cinematch 电影推荐算法的准确性提高至少 10%。由 AT&T Labs-Research 的研究人员与 Big Chaos 和 Pragmatic Theory 团队合作组成的联合团队，建立了一个集成模型，赢得了 2009 年 100 万美元的大奖。[96] 在奖项颁发后不久，Netflix 意识到观众的评分并不是衡量观看模式的最佳指标（“一切都是推荐”），因此他们相应地更改了推荐引擎。[97] 2010 年，《华尔街日报》报道了 Rebellion Research 公司及其利用机器学习预测金融危机的做法。[98] 2012 年，Sun Microsystems 的联合创始人 Vinod Khosla 预测，在未来二十年内，80%的医生职位将被自动化的机器学习医学诊断软件取代。[99] 2014 年，有报道称，机器学习算法已被应用于艺术史领域，用于研究美术作品，可能揭示了艺术家之间先前未被认出的影响。[100] 2019 年，Springer Nature 出版了首本使用机器学习创作的研究书籍。[101] 2020 年，机器学习技术被用于帮助诊断并帮助研究人员开发 COVID-19 的治疗方法。[102] 最近，机器学习也被应用于预测旅行者的环保行为。[103] 另外，机器学习技术也被应用于优化智能手机的性能和热行为，依据用户与手机的互动情况。[104][105][106] 当机器学习算法（MLA）正确应用时，可以利用公司特征的广泛范围来预测股票回报，而不会发生过拟合。通过有效的特征工程并结合预测，MLA 可以生成远超基本线性技术（如 OLS）所得结果的预测。[107]

　　最近，机器学习的进展已经扩展到量子化学领域，现在新的算法能够预测溶剂对化学反应的影响，从而为化学家提供了新的工具，以便根据最佳结果调整实验条件。[108]

　　机器学习正成为研究和预测大规模和小规模灾难中的撤离决策的有用工具。不同的解决方案已经被测试，以预测家庭成员在野火和飓风中何时决定撤离。[109][110][111] 其他应用则专注于建筑火灾中的撤离决策。[112][113]

7. 限制

　　尽管机器学习在某些领域具有变革性，但机器学习程序往往未能交付预期的结果。[114][115][116] 造成这种情况的原因有很多：缺乏（合适的）数据、无法访问数据、数据偏差、隐私问题、任务和算法选择不当、工具和人员不合适、资源不足以及评估问题。[117]

　　 “黑箱理论” 提出了另一个重大挑战。黑箱是指算法或输出生成过程完全不透明的情况，这意味着即使是算法的编码人员也无法审查机器从数据中提取出的模式。[118] 英国上议院的选择委员会曾声称，像这样的 “智能系统” 如果对个人生活产生 “重大影响”，除非它能够提供 “全面且令人满意的解释”，否则是不可接受的。[118]

　　 2018 年，Uber 的一辆自动驾驶汽车未能发现一名行人，导致行人被撞死。[119] 尝试在医疗健康领域应用机器学习的 IBM Watson 系统，在经过多年的时间和数十亿美元的投资后，依然未能取得预期效果。[120][121] 微软的 Bing Chat 聊天机器人被报告对用户产生敌意和冒犯性的回应。[122]

　　机器学习已被用作更新系统评审相关证据的策略，并增加了与生物医学文献增长相关的审阅者负担。尽管随着训练集的改进，机器学习有所进步，但它仍未发展到足以在不限制研究发现所需敏感性的情况下减少工作负担的程度。[123]

可解释性

　　可解释的人工智能（XAI），也称为可解释 AI 或可解释机器学习（XML），是指人工智能（AI），其决策或预测可以被人类理解。[124] 这与机器学习中的 “黑箱” 概念相对立，在 “黑箱” 中，甚至连设计者也无法解释 AI 为何做出特定的决策。[125] 通过改进 AI 系统用户的心理模型并消除他们的误解，XAI 有望帮助用户更有效地执行任务。XAI 可能是对 “社会解释权” 实施的一种方式。

过拟合

图 10：蓝线可能是由于随机噪声导致的线性函数过拟合的例子。

　　将一个糟糕的、过于复杂的理论调整以适应所有过去的训练数据被称为过拟合。许多系统试图通过根据理论与数据的拟合程度来奖励该理论，同时根据理论的复杂性来惩罚该理论，从而减少过拟合。[126]

其他限制与脆弱性

　　学习系统有时会 “学到错误的教训”。一个简单的例子是，如果一个图像分类器只在棕色马和黑色猫的图像上进行训练，它可能会错误地得出结论，认为所有棕色的斑点都很可能是马。[127] 一个现实世界中的例子是，与人类不同，当前的图像分类器通常不会主要根据图像组件之间的空间关系来做判断，而是学会了像素之间的关系，这些关系人类并未察觉，但仍然与某些类型的真实物体的图像相关联。在合法图像中修改这些模式可能会导致 “对抗性” 图像，系统可能会错误分类。[128][129]

　　对抗性脆弱性也可能出现在非线性系统中，或者由于非模式扰动。对于某些系统，仅通过改变一个特定的对抗性选定像素，就有可能改变其输出。[130] 机器学习模型往往容易受到对抗性机器学习的操控和/或规避。[131]

　　研究人员已经展示了如何在分类模型中无声地植入后门（例如用于 “垃圾邮件” 和明显的 “非垃圾邮件” 分类），这些模型通常是由第三方开发和/或训练的。相关方可以改变任何输入的分类，甚至在某些情况下，即使提供了数据/软件透明度（包括可能的白盒访问权限），也能改变分类结果。[132][133][134]

8. 模型评估

　　机器学习模型的分类可以通过准确性估计技术进行验证，例如保留法（holdout method），该方法将数据分为训练集和测试集（通常是 2/3 用于训练集，1/3 用于测试集），并评估训练模型在测试集上的表现。相比之下，K 折交叉验证（K-fold cross-validation）方法将数据随机划分为 K 个子集，然后进行 K 次实验，每次分别考虑 1 个子集用于评估，剩余的 K-1 个子集用于训练模型。除了保留法和交叉验证方法外，还可以使用自助法（bootstrap），通过从数据集中有放回地抽取 n 个实例来评估模型的准确性。[135]

　　除了整体准确性，研究人员还经常报告敏感度和特异度，分别表示真正率（TPR）和真负率（TNR）。类似地，研究人员有时也会报告假阳性率（FPR）以及假阴性率（FNR）。然而，这些比率仅显示其比值，未揭示分子和分母。受试者工作特征（ROC）曲线及其下面积（AUC）为分类模型评估提供了额外的工具。较高的 AUC 通常与表现更好的模型相关。[136]

9. 伦理学

　　人工智能的伦理学涵盖了该领域内广泛的主题，这些主题被认为具有特别的伦理风险。[137] 其中包括算法偏见、公平性、自动化决策、问责制、隐私和监管等问题。它还涵盖了各种新兴或潜在的未来挑战，如机器伦理学（如何让机器表现得符合伦理）、致命自主武器系统、军备竞赛动态、AI 安全与对齐、技术失业、AI 推动的虚假信息、如何对待具有道德地位的 AI 系统（AI 福利与权利）、人工超智能以及存在性风险。[137]

　　一些应用领域可能也具有特别重要的伦理影响，比如医疗保健、教育、刑事司法或军事等领域。

偏见

　　不同的机器学习方法可能会受到不同数据偏见的影响。一个专门训练于现有客户数据的机器学习系统，可能无法预测那些在训练数据中没有出现的新客户群体的需求。当机器学习系统训练于人为创建的数据时，往往会继承社会中已存在的结构性和无意识偏见。[138]

　　那些训练于带有偏见的数据集的系统，可能在使用时表现出这些偏见（算法偏见），从而数字化文化偏见。[139] 例如，1988 年，英国的种族平等委员会发现，圣乔治医学院使用了一种根据先前招生人员数据训练的计算机程序，这个程序拒绝了近 60 名被认为是女性或具有非欧洲名字的候选人。[138] 使用来自具有种族歧视招聘政策的公司的招聘数据，可能导致机器学习系统通过与以往成功申请者的相似性来打分求职者，从而复制偏见。[140][141] 另一个例子是预测性警务公司 Geolitica 的预测算法，在使用历史犯罪数据训练后，导致 “低收入和少数族裔社区过度警察执法水平过高”。[142]

　　虽然负责地收集数据和记录系统所使用的算法规则被认为是机器学习的关键部分，但一些研究人员将机器学习易受偏见影响的原因归咎于在人工智能领域中缺乏少数群体的参与和代表性。[143] 事实上，根据计算研究协会（CRA）在 2021 年进行的研究，“女性教师仅占全球多所大学专注于 AI 的教师的 16.1%。”[144] 此外，在 “新美国居民 AI 博士毕业生” 群体中，45%为白人，22.4%为亚洲人，3.2%为西班牙裔，2.4%为非裔美国人，这进一步表明人工智能领域缺乏多样性。[144]

　　从数据中学习的语言模型已被证明包含类人偏见。[145][146] 因为人类语言本身就包含偏见，所以在语言语料库上训练的机器也必然会学习到这些偏见。[147][148] 2016 年，微软测试了 Tay，一个从推特中学习的聊天机器人，结果它迅速学习了种族主义和性别歧视的语言。[149]

　　在调查性新闻机构 ProPublica 进行的一项实验中，机器学习算法对囚犯再犯率的洞察错误地将 “黑人被告的高风险判定是白人被告的两倍”。[142] 2015 年，谷歌照片曾将几名黑人标记为大猩猩，导致争议。大猩猩标签随后被删除，并且到 2023 年，系统仍无法识别大猩猩。[150] 许多其他系统也发现了识别非白人群体的问题。[151]

　　由于这些挑战，机器学习的有效应用可能需要更长时间才能在其他领域普及。[152] 关于机器学习中的公平性问题，减少偏见并推动其为人类福祉服务的呼声越来越高，人工智能科学家们也在表达这一关切，费菲·李（Fei-Fei Li）曾表示：“AI 没有什么人工的东西。它源自于人类，由人类创造，最重要的是——它影响着人类。它是我们刚刚开始理解的强大工具，这是一个深远的责任。”[153]

财务激励

　　医疗保健专业人士担心，这些系统可能不是为了公众利益而设计的，而是作为创造收入的机器。特别是在美国，改善医疗保健和增加利润之间存在长期的伦理困境。例如，算法可能被设计为向患者提供不必要的检查或药物，而这些算法的所有者在其中拥有利益。机器学习在医疗保健中的潜力是为专业人士提供一个额外的工具，以诊断、用药并规划患者的恢复路径，但这需要减轻这些偏见。[154]

10. 硬件

　　自 2010 年代以来，机器学习算法和计算机硬件的进步促使训练深度神经网络（机器学习的一个特定子领域）的方法变得更加高效，这些神经网络包含许多层非线性隐藏单元。[155] 到 2019 年，图形处理单元（GPU），通常具有针对 AI 的专门增强，已取代中央处理单元（CPU），成为训练大规模商业云 AI 的主流方法。[156] OpenAI 估算了从 AlexNet（2012）到 AlphaZero（2017）期间，最大深度学习项目中使用的硬件计算量，并发现所需计算量增加了 300,000 倍，且其翻倍时间趋势为 3.4 个月。[157][158]

类脑计算

　　类脑计算指的是一类旨在模拟生物神经网络结构和功能的计算系统。这些系统可以通过在常规硬件上的基于软件的模拟实现，也可以通过专门的硬件架构实现。[159]

　　 物理神经网络

　　物理神经网络是一种特定类型的类脑硬件，它依赖于电可调材料（如忆阻器）来模拟神经突触的功能。“物理神经网络” 这一术语强调使用物理硬件进行计算，而非基于软件的实现。它广泛指代使用具有可调电阻材料来复制神经突触的人工神经网络。[160][161]

嵌入式机器学习

　　嵌入式机器学习是机器学习的一个子领域，它将模型部署在计算资源有限的嵌入式系统上，例如可穿戴计算机、边缘设备和微控制器。[162][163][164] 直接在这些设备上运行模型消除了将数据传输和存储到云服务器进行进一步处理的需求，从而降低了数据泄露、隐私泄露以及知识产权、个人数据和商业机密被盗的风险。嵌入式机器学习可以通过多种技术实现，例如硬件加速，[165][166] 近似计算，[167] 和模型优化。[168][169] 常见的优化技术包括剪枝、量化、知识蒸馏、低秩分解、网络架构搜索和参数共享。

11. 软件

　　包含多种机器学习算法的软件套件包括以下几种：

免费和开源软件

Caffe
Deeplearning4j
DeepSpeed
ELKI
Google JAX
Infer.NET
Keras
Kubeflow
LightGBM
Mahout
Mallet
Microsoft Cognitive Toolkit
ML.NET
mlpack
MXNet
OpenNN
Orange
pandas (软件)
ROOT (TMVA with ROOT)
scikit-learn
Shogun
Spark MLlib
SystemML
TensorFlow
Torch / PyTorch
Weka / MOA
XGBoost
Yooreeka

具有免费和开源版本的专有软件

KNIME
RapidMiner

专有软件

Amazon Machine Learning
Angoss KnowledgeSTUDIO
Azure Machine Learning
IBM Watson Studio
Google Cloud Vertex AI
Google Prediction API
IBM SPSS Modeler
KXEN Modeler
LIONsolver
Mathematica
MATLAB
Neural Designer
NeuroSolutions
Oracle Data Mining
Oracle AI Platform Cloud Service
PolyAnalyst
RCASE
SAS Enterprise Miner
SequenceL
Splunk
STATISTICA Data Miner

12. 期刊

《机器学习研究杂志》（Journal of Machine Learning Research）
《机器学习》（Machine Learning）
《自然机器智能》（Nature Machine Intelligence）
《神经计算》（Neural Computation）
《IEEE 模式分析与机器智能汇刊》（IEEE Transactions on Pattern Analysis and Machine Intelligence）

13. 会议

美国人工智能协会会议（AAAI Conference on Artificial Intelligence）
计算语言学协会（Association for Computational Linguistics，ACL）
欧洲机器学习与数据库知识发现原则与实践会议（European Conference on Machine Learning and Principles and Practice of Knowledge Discovery in Databases，ECML PKDD）
生物信息学与生物统计学的计算智能方法国际会议（International Conference on Computational Intelligence Methods for Bioinformatics and Biostatistics，CIBB）
国际机器学习会议（International Conference on Machine Learning，ICML）
国际学习表示会议（International Conference on Learning Representations，ICLR）
国际智能机器人与系统会议（International Conference on Intelligent Robots and Systems，IROS）
知识发现与数据挖掘会议（Conference on Knowledge Discovery and Data Mining，KDD）
神经信息处理系统会议（Conference on Neural Information Processing Systems，NeurIPS）

14. 参见

自动化机器学习（Automated machine learning）— 自动化应用机器学习的过程
大数据（Big data）— 极其庞大或复杂的数据集
深度学习（Deep learning）— 机器学习的一个分支，关注人工神经网络
可微编程（Differentiable programming）— 一种编程范式
机器学习研究的数据集列表（List of datasets for machine-learning research）
M 理论（学习框架）（M-theory）
机器遗忘（Machine unlearning）

15. 参考文献

“没有被明确编程” 的定义通常归功于 Arthur Samuel，他在 1959 年创造了 “机器学习” 这一术语，但这个短语并未在该出版物中逐字出现，可能是后来出现的转述。参见 Koza, John R.; Bennett, Forrest H.; Andre, David; Keane, Martin A. (1996). "使用遗传编程自动设计模拟电子电路的拓扑结构和大小"。*Artificial Intelligence in Design '96*。荷兰多德雷赫特：Springer Netherlands。第 151–170 页。doi:10.1007/978-94-009-0279-4_9。ISBN 978-94-010-6610-5。
"什么是机器学习?" IBM. 2021 年 9 月 22 日。原文存档于 2023 年 12 月 27 日。检索自 2023 年 6 月 27 日。
Hu, Junyan; Niu, Hanlin; Carrasco, Joaquin; Lennox, Barry; Arvin, Farshad (2020). "基于 Voronoi 的多机器人自主探索在未知环境中的应用：通过深度强化学习"。*IEEE Transactions on Vehicular Technology*。69(12): 14413–14423。doi:10.1109/tvt.2020.3034800。ISSN 0018-9545。S2CID 228989788。
Yoosefzadeh-Najafabadi, Mohsen; Hugh, Earl; Tulpan, Dan; Sulik, John; Eskandari, Milad (2021). "机器学习算法在植物育种中的应用：基于高光谱反射预测大豆产量?" *Front. Plant Sci.* 11: 624273。doi:10.3389/fpls.2020.624273。PMC 7835636。PMID 33510761。
Bishop, C. M. (2006)，*模式识别与机器学习*，Springer，ISBN 978-0-387-31073-2
机器学习与模式识别 “可以视为同一领域的两个方面”。[5]: vii
Friedman, Jerome H. (1998). "数据挖掘与统计学：两者有什么关系?" *Computing Science and Statistics*。29 (1): 3–9。
Samuel, Arthur (1959). "使用跳棋游戏进行机器学习研究"。*IBM Journal of Research and Development*。3 (3): 210–229。CiteSeerX 10.1.1.368.2254。doi:10.1147/rd.33.0210。S2CID 2126705。
R. Kohavi 和 F. Provost, "术语词汇表", *Machine Learning*，第 30 卷，第 2–3 期，第 271–274 页，1998 年。
Gerovitch, Slava (2015 年 4 月 9 日). "计算机如何报复苏联"。*Nautilus*。原文存档于 2021 年 9 月 22 日。检索自 2021 年 9 月 19 日。
Lindsay, Richard P. (1964 年 9 月 1 日). "自动化对公共管理的影响"。*Western Political Quarterly*。17(3): 78–81。doi:10.1177/106591296401700364。ISSN 0043-4078。S2CID 154021253。原文存档于 2021 年 10 月 6 日。检索自 2021 年 10 月 6 日。
"机器学习的历史与演变：时间线"。*WhatIs*。原文存档于 2023 年 12 月 8 日。检索自 2023 年 12 月 8 日。
Milner, Peter M. (1993). "心智与唐纳德·O·赫布"。*Scientific American*。268(1): 124–129。Bibcode:1993SciAm.268a.124M。doi:10.1038/
scientificamerican0193-124。ISSN 0036-8733。JSTOR 24941344。PMID 8418480。原文存档于 2023 年 12 月 20 日。检索自 2023 年 12 月 9 日。
"科学：傻按钮"，《*Time*》杂志，1961 年 8 月 18 日。
Nilsson N. *学习机器*，麦格劳·希尔，1965 年。
Duda, R., Hart P. *模式识别与场景分析*，Wiley Interscience，1973 年。
S. Bozinovski "教学空间：一种适应性模式分类的表示概念" *COINS 技术报告 No. 81-28*，马萨诸塞大学阿姆赫斯特分校计算机与信息科学系，1981 年。[链接](https://web.cs.umass.edu/publication/docs/1981/UM-CS-1981-028.pdf) 原文存档于 2021 年 2 月 25 日。
Mitchell, T. (1997). *机器学习*，麦格劳·希尔出版社，第 2 页。ISBN 978-0-07-042807-2。
Harnad, Stevan (2008), "注释游戏：关于图灵（1950）在计算、机器与智能中的看法"，收录于 Epstein, Robert; Peters, Grace（编），*图灵测试源书：寻找思维计算机的哲学与方法论问题*，Kluwer，第 23–66 页，ISBN 9781402067082，原文存档于 2012 年 3 月 9 日，检索自 2012 年 12 月 11 日。 "AI 简介第一部分"。*Edzion*。2020 年 12 月 8 日。原文存档于 2021 年 2 月 18 日。检索自 2020 年 12 月 9 日。
Sindhu V, Nivedha S, Prakash M (2020 年 2 月)。"机器学习在生物信息学中的实证科学研究"。*Journal of Mechanics of Continua and Mathematical Sciences* (7)。doi:10.26782/jmcms.spl.7/2020.02.00006。
Sarle, Warren S. (1994). "神经网络与统计模型"。*SUGI 19：第十九届年会 SAS 用户组国际会议论文集*。SAS Institute，第 1538–50 页。ISBN 9781555446116。OCLC 35546178。
Russell, Stuart; Norvig, Peter (2003) [1995]. *人工智能：现代方法*（第二版）。Prentice Hall。ISBN 978-0137903955。
Langley, Pat (2011). "机器学习的变化科学"。*Machine Learning*。82(3): 275–9。doi:10.1007/s10994-011-5242-y。
Mahoney, Matt. "大型文本压缩基准的理由"。佛罗里达理工大学。检索自 2013 年 3 月 5 日。
Shmilovici A.; Kahiri Y.; Ben-Gal I.; Hauser S. (2009). "使用通用数据压缩算法衡量日内外汇市场的效率"（PDF）。*Computational Economics*。33(2): 131–154。CiteSeerX 10.1.1.627.3751。doi:10.1007/s10614-008-9153-3。S2CID 17234503。原文存档（PDF）于 2009 年 7 月 9 日。
I. Ben-Gal (2008). "利用数据压缩度量分析鲁棒设计"（PDF）。*IEEE Transactions on Reliability*。54(3): 381–388。doi:10.1109/TR.2005.853280。S2CID 9376086。
D. Scully; Carla E. Brodley (2006). "压缩与机器学习：特征空间向量的新视角"。*数据压缩会议（DCC'06）*。第 332 页。doi:10.1109/DCC.2006.13。ISBN 0-7695-2545-8。S2CID 12311412。
Gary Adcock (2023 年 1 月 5 日). "什么是 AI 视频压缩?"。*massive.io*。检索自 2023 年 4 月 6 日。
Mentzer, Fabian; Toderici, George; Tschannen, Michael; Agustsson, Eirikur (2020). "高保真生成图像压缩"。arXiv:2006.09965 [eess.IV]。
"什么是无监督学习？| IBM"。www.ibm.com。2021 年 9 月 23 日。检索于 2024 年 2 月 5 日。
"大规模数据集的差分隐私聚类"。blog.research.google。2023 年 5 月 25 日。检索于 2024 年 3 月 16 日。
Edwards, Benj (2023 年 9 月 28 日)。"AI 语言模型在无损压缩方面可以超过 PNG 和 FLAC，研究称"。*Ars Technica*。检索于 2024 年 3 月 7 日。
Le Roux, Nicolas; Bengio, Yoshua; Fitzgibbon, Andrew (2012)。"通过建模不确定性来改善一阶和二阶方法"。在 Sra, Suvrit; Nowozin, Sebastian; Wright, Stephen J.（编辑）中。《机器学习优化》。MIT 出版社。第 404 页。ISBN 9780262016469。原文存档于 2023 年 1 月 17 日。检索于 2020 年 11 月 12 日。
Bzdok, Danilo; Altman, Naomi; Krzywinski, Martin (2018)。"统计学与机器学习"。*Nature Methods*。15(4): 233–234。doi:10.1038/nmeth.4642。PMC 6082636。PMID 30100822。
Michael I. Jordan (2014 年 9 月 10 日)。"统计学与机器学习"。reddit。原文存档于 2017 年 10 月 18 日。检索于 2014 年 10 月 1 日。
Hung 等人。算法用于衡量外科医生的表现并预测机器人手术中的临床结果。*JAMA Surgery*。2018。
Cornell University Library (2001 年 8 月)。"Breiman: 统计建模：两种文化（作者评论与答辩）"。*Statistical Science*。16(3)。doi:10.1214/ss/1009213726。S2CID 62729017。原文存档于 2017 年 6 月 26 日。检索于 2015 年 8 月 8 日。
Gareth James; Daniela Witten; Trevor Hastie; Robert Tibshirani (2013)。*统计学习导论*。Springer。第 vii 页。原文存档于 2019 年 6 月 23 日。检索于 2014 年 10 月 25 日。
Ramezanpour, A.; Beam, A.L.; Chen, J.H.; Mashaghi, A. (2020 年 11 月 17 日)。"医学诊断中的统计物理学：学习、推断和优化算法"。*Diagnostics*。10(11): 972。doi:10.3390/diagnostics10110972。PMC 7699346。PMID 33228143。
Mashaghi, A.; Ramezanpour, A. (2018 年 3 月 16 日)。"医学诊断的统计物理学：一个概率模型的研究"。*Physical Review E*。97 (3–1): 032118。arXiv:1803.10019。Bibcode:2018PhRvE..97c2118M。doi:10.1103/PhysRevE.97.032118。PMID 29776109。S2CID 4955393。
Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012)。*机器学习基础*。美国马萨诸塞州：MIT 出版社。ISBN 9780262018258。
Alpaydin, Ethem (2010)。*机器学习导论*。伦敦：MIT 出版社。ISBN 978-0-262-01243-0。检索于 2017 年 2 月 4 日。
Jordan, M. I.; Mitchell, T. M. (2015 年 7 月 17 日)。"机器学习：趋势、视角与前景"。*Science*。349 (6245): 255–260。Bibcode:2015Sci...349..255J。doi:10.1126/science.aaa8415。PMID 26185243。S2CID 677218。
El Naqa, Issam; Murphy, Martin J. (2015)。"什么是机器学习？"。*辐射肿瘤学中的机器学习*。第 3–11 页。doi:10.1007/978-3-319-18305-3_1。ISBN 978-3-319-18304-6。S2CID 178586107。
Okolie, Jude A.; Savage, Shauna; Ogbaga, Chukwuma C.; Gunes, Burcu (2022 年 6 月)。"评估机器学习方法在研究使用生物炭或活性炭去除废水中药物的潜力"。*Total Environment Research Themes*。1–2: 100001。 Bibcode:2022TERT....100001O。doi:10.1016/j.totert.2022.100001。S2CID 249022386。
Russell, Stuart J.; Norvig, Peter (2010)。*人工智能：现代方法*（第三版）。Prentice Hall。ISBN 9780136042594。
Mohri, Mehryar; Rostamizadeh, Afshin; Talwalkar, Ameet (2012)。*机器学习基础*。MIT 出版社。ISBN 9780262018258。
Alpaydin, Ethem (2010)。*机器学习导论*。MIT 出版社。第 9 页。ISBN 978-0-262-01243-0。原文存档于 2023 年 1 月 17 日。检索于 2018 年 11 月 25 日。
"Lecture 2 Notes: Supervised Learning"。www.cs.cornell.edu。检索于 2024 年 7 月 1 日。
Jordan, Michael I.; Bishop, Christopher M. (2004)。"神经网络"。收录于 Allen B. Tucker（编）《计算机科学手册（第二版）》(第七部分：智能系统)。佛罗里达州博卡拉顿：Chapman & Hall/CRC Press LLC。ISBN 978-1-58488-360-9。
Misra, Ishan; Maaten, Laurens van der (2020)。"预训练不变表示的自监督学习"。2020 年 IEEE/CVF 计算机视觉与模式识别会议（CVPR）。美国华盛顿州西雅图：IEEE。第 6707–6717 页。arXiv:1912.01991。doi:10.1109/CVPR42600.2020.00674。
Jaiswal, Ashish; Babu, Ashwin Ramesh; Zadeh, Mohammad Zaki; Banerjee, Debapriya; Makedon, Fillia (2021 年 3 月)。"对比自监督学习的调查"。*Technologies*。9 (1): 2。arXiv:2011.00362。doi:10.3390/technologies9010002。ISSN 2227-7080。
Alex Ratner; Stephen Bach; Paroma Varma; Chris. "弱监督：机器学习的新编程范式"。hazyresearch.github.io，引用了 Hazy Research 团队其他成员的工作。原文存档于 2019 年 6 月 6 日。检索于 2019 年 6 月 6 日。
van Otterlo, M.; Wiering, M. (2012)。"强化学习和马尔可夫决策过程"。*强化学习：适应、学习与优化*。第 12 卷，第 3–42 页。doi:10.1007/978-3-642-27645-3_1。ISBN 978-3-642-27644-6。
Roweis, Sam T.; Saul, Lawrence K. (2000 年 12 月 22 日)。"通过局部线性嵌入进行非线性降维"。*Science*。290 (5500): 2323–2326。Bibcode:2000Sci...290.2323R。doi:10.1126/science.290.5500.2323。PMID 11125150。S2CID 5987139。原文存档于 2021 年 8 月 15 日。检索于 2023 年 7 月 17 日。
Pavel Brazdil; Christophe Giraud Carrier; Carlos Soares; Ricardo Vilalta (2009)。*元学习：数据挖掘应用*（第四版）。Springer Science+Business Media。第 10–14 页，部分内容。ISBN 978-3540732624。
Bozinovski, S. (1982)。"一个使用次级强化的自学习系统"。收录于 Trappl, Robert（编）《控制论与系统研究：第六届欧洲控制论与系统研究会议论文集》。North-Holland。第 397–402 页。ISBN 978-0-444-86488-8。
Bozinovski, Stevo (2014) "人工神经网络中认知-情感交互机制建模，始于 1981 年"。*Procedia Computer Science* 第 255–263 页。
Bozinovski, S. (2001) "自学习智能体：基于交叉价值判断的情感连接主义理论"。*控制论与系统* 32(6) 637–667。
Y. Bengio; A. Courville; P. Vincent (2013). "Representation Learning: A Review and New Perspectives". IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (8): 1798–1828. arXiv:1206.5538. doi:10.1109/tpami.2013.50. PMID 23787338. S2CID 393948.
Nathan Srebro; Jason D. M. Rennie; Tommi S. Jaakkola (2004). Maximum-Margin Matrix Factorization. NIPS.
Coates, Adam; Lee, Honglak; Ng, Andrew Y. (2011). An analysis of single-layer networks in unsupervised feature learning (PDF). Int'l Conf. on AI and Statistics (AISTATS). Archived from the original (PDF) on 2017-08-13. Retrieved 2018-11-25.
Csurka, Gabriella; Dance, Christopher C.; Fan, Lixin; Willamowski, Jutta; Bray, Cédric (2004). Visual categorization with bags of keypoints (PDF). ECCV Workshop on Statistical Learning in Computer Vision. Archived (PDF) from the original on 2019-07-13. Retrieved 2019-08-29.
Daniel Jurafsky; James H. Martin (2009). Speech and Language Processing. Pearson Education International. pp. 145–146.
Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). "A Survey of Multilinear Subspace Learning for Tensor Data" (PDF). Pattern Recognition. 44 (7): 1540–1551. Bibcode:2011PatRe..44.1540L. doi:10.1016/j.patcog.2011.01.004. Archived (PDF) from the original on 2019-07-10. Retrieved 2015-09-04.
Yoshua Bengio (2009). Learning Deep Architectures for AI. Now Publishers Inc. pp. 1–3. ISBN 978-1-60198-294-0. Archived from the original on 2023-01-17. Retrieved 2016-02-15.
Tillmann, A. M. (2015). "On the Computational Intractability of Exact and Approximate Dictionary Learning". IEEE Signal Processing Letters. 22 (1): 45–49. arXiv:1405.6664. Bibcode:2015ISPL...22...45T. doi:10.1109/LSP.2014.2345761. S2CID 13342762.
Aharon, M, M Elad, and A Bruckstein. 2006. "K-SVD: An Algorithm for Designing Overcomplete Dictionaries for Sparse Representation Archived 2018-11-23 at the Wayback Machine." Signal Processing, IEEE Transactions on 54 (11): 4311–4322
Zimek, Arthur; Schubert, Erich (2017), "Outlier Detection", Encyclopedia of Database Systems, Springer New York, pp. 1–5, doi:10.1007/978-1-4899-7993-3_80719-1, ISBN 9781489979933
Hodge, V. J.; Austin, J. (2004). "异常值检测方法学综述"（PDF）。*人工智能评论*，22 (2): 85–126。CiteSeerX 10.1.1.318.4023。doi:10.1007/s10462-004-4304-y。S2CID 59941878。原文存档（PDF）于 2015 年 6 月 22 日。检索于 2018 年 11 月 25 日。
Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning (2002). "用于网络入侵检测的数据挖掘"（PDF）。*下一代数据挖掘研讨会论文集*。原文存档（PDF）于 2015 年 9 月 23 日。检索于 2023 年 3 月 26 日。
Chandola, V.; Banerjee, A.; Kumar, V. (2009). "异常检测：综述"。*ACM 计算调查*，41 (3): 1–58。doi:10.1145/1541880.1541882。S2CID 207172599。
Fleer, S.; Moringen, A.; Klatzky, R. L.; Ritter, H. (2020). "通过刚性触觉传感器阵列学习高效的触觉形状探索"。*PLOS ONE*，15 (1): e0226880。arXiv:1902.07501。doi:10.1371/journal.pone.0226880。PMC 6940144。PMID 31896135。
Moringen, Alexandra; Fleer, Sascha; Walck, Guillaume; Ritter, Helge (2020), Nisky, Ilana; Hartcher-O'Brien, Jess; Wiertlewski, Michaël; Smeets, Jeroen (编)，"基于注意力的机器人触觉交互学习"，收录于*触觉：科学、技术、应用*，Lecture Notes in Computer Science，第 12272 卷，Cham: Springer International Publishing，第 462–470 页，doi:10.1007/978-3-030-58147-3_51，ISBN 978-3-030-58146-6，S2CID 220069113。
Piatetsky-Shapiro, Gregory (1991)，"强规则的发现、分析与展示"，收录于 Piatetsky-Shapiro, Gregory；Frawley, William J.（编），*数据库中的知识发现*，AAAI/MIT Press，Cambridge, MA。
Bassel, George W.; Glaab, Enrico; Marquez, Julietta; Holdsworth, Michael J.; Bacardit, Jaume (2011-09-01). "在拟南芥中使用基于规则的机器学习构建功能网络"。*植物细胞*，23 (9): 3101–3116。Bibcode:2011PlanC..23.3101B。doi:10.1105/tpc.111.088153。ISSN 1532-298X。PMC 3203449。PMID 21896882。
Agrawal, R.; Imieliński, T.; Swami, A. (1993). "在大规模数据库中挖掘项集之间的关联规则"。*1993 年 ACM SIGMOD 国际数据管理会议论文集* - SIGMOD '93，第 207 页。CiteSeerX 10.1.1.40.6984。doi:10.1145/170035.170072。ISBN 978-0897915922。S2CID 490415。
Urbanowicz, Ryan J.; Moore, Jason H. (2009-09-22). "学习分类器系统：完整的介绍、综述与路线图"。*人工进化与应用学报*，2009: 1–25。doi:10.1155/2009/736398。ISSN 1687-6229。
Plotkin G.D. *自动归纳推理方法*，博士论文，爱丁堡大学，1970 年，原文存档于 2017 年 12 月 22 日。
Shapiro, Ehud Y. *从事实中归纳推理理论*，存档于 2021 年 8 月 21 日，耶鲁大学计算机科学系研究报告 192，1981 年。重印于 J.-L. Lassez, G. Plotkin（编），*计算逻辑*，MIT 出版社，剑桥，MA，1991 年，第 199–254 页。
Shapiro, Ehud Y. (1983). *算法程序调试*。剑桥，马萨诸塞州：MIT 出版社。ISBN 0-262-19218-7
Shapiro, Ehud Y. "模型推理系统"。*第七届国际人工智能联合会议论文集，第 2 卷*。摩根·考夫曼出版社，1981 年。存档于 2023 年 4 月 6 日。
Burkov, Andriy (2019). *百页机器学习书*。波兰：Andriy Burkov。ISBN 978-1-9995795-0-0。
Russell, Stuart J.; Norvig, Peter (2021). *人工智能：现代方法*。人工智能 Pearson 系列（第四版）。霍博肯：Pearson。ISBN 978-0-13-461099-3。
Honglak Lee, Roger Grosse, Rajesh Ranganath, Andrew Y. Ng. "卷积深度信念网络用于可扩展的无监督学习分层表示"。*第 26 届国际机器学习年会论文集*，2009 年，存档于 2017 年 10 月 18 日。
Cortes, Corinna; Vapnik, Vladimir N. (1995). "支持向量网络"。*机器学习*，20 (3): 273–297。doi:10.1007/BF00994018。
Stevenson, Christopher. "教程：Excel 中的多项式回归"。facultystaff.richmond.edu。原文存档于 2013 年 6 月 2 日。检索于 2017 年 1 月 22 日。
scikit-learn 的文档也有类似的示例，存档于 2022 年 11 月 2 日。
Goldberg, David E.; Holland, John H. (1988). "遗传算法与机器学习"（PDF）。*机器学习*，3 (2): 95–99。doi:10.1007/bf00113892。S2CID 35506513。原文存档（PDF）于 2011 年 5 月 16 日。检索于 2019 年 9 月 3 日。
Michie, D.; Spiegelhalter, D. J.; Taylor, C. C. (1994). *机器学习、神经网络与统计分类*。Ellis Horwood 人工智能系列。Bibcode:1994mlns.book.....M。
Zhang, Jun; Zhan, Zhi-hui; Lin, Ying; Chen, Ni; Gong, Yue-jiao; Zhong, Jing-hui; Chung, Henry S.H.; Li, Yun; Shi, Yu-hui (2011). "进化计算与机器学习相遇：一项调查"。*计算智能杂志*，6 (4): 68–75。doi:10.1109/mci.2011.942584。S2CID 6760276。
"联邦学习：无需集中训练数据的协作机器学习"。Google AI 博客，2017 年 4 月 6 日。原文存档于 2019 年 6 月 7 日。检索于 2019 年 6 月 8 日。
机器学习已纳入 CFA 课程（讨论自上而下）；见：Kathleen DeRose 和 Christophe Le Lanno (2020). "机器学习"。存档于 2020 年 1 月 13 日。
Ivanenko, Mikhail; Smolik, Waldemar T.; Wanta, Damian; Midura, Mateusz; Wróblewski, Przemysław; Hou, Xiaohan; Yan, Xiaoheng (2023). "使用监督学习进行胸部可穿戴电阻抗成像的图像重建"。*传感器*，23 (18): 7774。Bibcode:2023Senso..23.7774I。doi:10.3390/s23187774。PMC 10538128。PMID 37765831。
"BelKor 主页"。research.att.com
"Netflix 技术博客：Netflix 推荐：超越 5 星（第一部分）"。2012 年 4 月 6 日。原文存档于 2016 年 5 月 31 日。检索于 2015 年 8 月 8 日。
Scott Patterson (2010 年 7 月 13 日). "让机器来决定"。*华尔街日报*。原文存档于 2018 年 6 月 24 日。检索于 2018 年 6 月 24 日。
Vinod Khosla (2012 年 1 月 10 日). "我们需要医生还是算法?"。*Tech Crunch*。原文存档于 2018 年 6 月 18 日。检索于 2016 年 10 月 20 日。
当机器学习算法研究精美艺术画作时，它发现了艺术史学家从未注意到的事情。存档于 2016 年 6 月 4 日，*The Physics at ArXiv* 博客。
Vincent, James (2019-04-10). "首本 AI 生成的教科书展示了机器人写手的优势"。*The Verge*。原文存档于 2019 年 5 月 5 日。检索于 2019 年 5 月 5 日。
Vaishya, Raju; Javaid, Mohd; Khan, Ibrahim Haleem; Haleem, Abid (2020 年 7 月 1 日). "人工智能（AI）在 COVID-19 大流行中的应用"。*糖尿病与代谢综合症：临床研究与评论*，14 (4): 337–339。doi:10.1016/j.dsx.2020.04.012。PMC 7195043。PMID 32305024。
Rezapouraghdam, Hamed; Akhshik, Arash; Ramkissoon, Haywantee (2021 年 3 月 10 日). "将机器学习应用于预测海洋保护区游客的绿色行为：来自塞浦路斯的证据"。*可持续旅游杂志*，31 (11): 2479–2505。doi:10.1080/09669582.2021.1887878。hdl:10037/24073。
Dey, Somdip; Singh, Amit Kumar; Wang, Xiaohang; McDonald-Maier, Klaus (2020-06-15). "用户交互感知强化学习：针对 CPU-GPU 移动 MPSoC 的功率和热效率"。2020 设计、自动化与欧洲测试会议与展览（DATE）(PDF)，pp. 1728–1733。doi:10.23919/DATE48585.2020.9116294。ISBN 978-3-9819263-4-7。S2CID 219858480。原文存档于 2021 年 12 月 13 日。检索于 2022 年 1 月 20 日。
Quested, Tony. "智能手机通过埃塞克斯创新变得更加智能"。*商业周刊*。原文存档于 2021 年 6 月 24 日。检索于 2021 年 6 月 17 日。
Williams, Rhiannon (2020-07-21). "未来的智能手机‘将通过监控用户行为延长自身电池寿命’"。*i*。原文存档于 2021 年 6 月 24 日。检索于 2021 年 6 月 17 日。
Rasekhschaffe, Keywan Christian; Jones, Robert C. (2019-07-01). "股票选择的机器学习"。*金融分析师杂志*，75 (3): 70–88。doi:10.1080/0015198X.2019.1596678。ISSN 0015-198X。S2CID 108312507。原文存档于 2023 年 11 月 26 日。检索于 2023 年 11 月 26 日。
Chung, Yunsie; Green, William H. (2024). "从量子化学到机器学习预测溶剂效应对反应速率的影响"。*化学科学*，15 (7): 2410–2424。doi:10.1039/D3SC05353A。ISSN 2041-6520。PMC 10866337。PMID 38362410。原文存档于 2024 年 5 月 19 日。检索于 2024 年 4 月 21 日。
Sun, Yuran; Huang, Shih-Kai; Zhao, Xilei (2024-02-01). "使用可解释机器学习方法预测飓风撤离决策"。*国际灾难风险科学杂志*，15 (1): 134–148。arXiv:2303.06557。Bibcode:2024IJDRS..15..134S。doi:10.1007/s13753-024-00541-1。ISSN 2192-6395。
Sun, Yuran; Zhao, Xilei; Lovreglio, Ruggiero; Kuligowski, Erica (2024-01-01), Naser, M. Z. (ed.), "8 - 大规模撤离建模的 AI：承诺与挑战"，*可解释机器学习：基础设施分析、设计、评估与知情决策*，Woodhead 出版系列（土木与结构工程），Woodhead Publishing，pp. 185–204，ISBN 978-0-12-824073-1，原文存档于 2024 年 5 月 19 日，检索于 2024 年 5 月 19 日。
Xu, Ningzhe; Lovreglio, Ruggiero; Kuligowski, Erica D.; Cova, Thomas J.; Nilsson, Daniel; Zhao, Xilei (2023-03-01). "使用机器学习预测和评估野火撤离决策：基于 2019 年金凯德火灾的研究成果"。*消防技术*，59 (2): 793–825。doi:10.1007/s10694-023-01363-1。ISSN 1572-8099。原文存档于 2024 年 5 月 19 日。检索于 2024 年 5 月 19 日。
Wang, Ke; Shi, Xiupeng; Goh, Algena Pei Xuan; Qian, Shunzhi (2019-06-01). "基于机器学习的紧急撤离下行人运动动力学研究"。*消防安全杂志*，106: 163–176。Bibcode:2019FirSJ.106..163W。doi:10.1016/j.firesaf.2019.04.008。hdl:10356/143390。ISSN 0379-7112。原文存档于 2024 年 5 月 19 日。检索于 2024 年 5 月 19 日。
Zhao, Xilei; Lovreglio, Ruggiero; Nilsson, Daniel (2020-05-01). "使用机器学习建模和解释撤离前决策过程"。*建筑自动化*，113: 103140。doi:10.1016/j.autcon.2020.103140。hdl:10179/17315。ISSN 0926-5805。原文存档于 2024 年 5 月 19 日。检索于 2024 年 5 月 19 日。
"Why Machine Learning Models Often Fail to Learn: QuickTake Q&A"。*Bloomberg.com*，2016-11-10。原文存档于 2017 年 3 月 20 日。检索于 2017 年 4 月 10 日。
"The First Wave of Corporate AI Is Doomed to Fail"。*哈佛商业评论*，2017-04-18。原文存档于 2018 年 8 月 21 日。检索于 2018 年 8 月 20 日。
"Why the A.I. euphoria is doomed to fail"。*VentureBeat*，2016-09-18。原文存档于 2018 年 8 月 19 日。检索于 2018 年 8 月 20 日。
"9 Reasons why your machine learning project will fail"。*kdnuggets.com*。原文存档于 2018 年 8 月 21 日。检索于 2018 年 8 月 20 日。
Babuta, Alexander; Oswald, Marion; Rinik, Christine (2018). *透明度和可理解性*（报告）。皇家联合服务研究所（RUSI），pp. 17–22。原文存档于 2023 年 12 月 9 日。检索于 2023 年 12 月 9 日。
"Why Uber's self-driving car killed a pedestrian"。*经济学人*。原文存档于 2018 年 8 月 21 日。检索于 2018 年 8 月 20 日。
"IBM's Watson recommended 'unsafe and incorrect' cancer treatments – STAT"。*STAT*，2018-07-25。原文存档于 2018 年 8 月 21 日。检索于 2018 年 8 月 21 日。
Hernandez, Daniela; Greenwald, Ted (2018-08-11). "IBM 面临 Watson 难题"。*华尔街日报*，ISSN 0099-9660。原文存档于 2018 年 8 月 21 日。检索于 2018 年 8 月 21 日。
Allyn, Bobby (2023 年 2 月 27 日)。"微软在人工智能技术实验中的失败"。*美国国家公共广播电台*。原文存档于 2023 年 12 月 8 日。检索于 2023 年 12 月 8 日。
Reddy, Shivani M.; Patel, Sheila; Weyrich, Meghan; Fenton, Joshua; Viswanathan, Meera (2020)。"传统的系统评价方法与综述中的综述及半自动化更新证据策略的比较"。*系统评价*，9 (1): 243。doi:10.1186/s13643-020-01450-2。ISSN 2046-4053。PMC 7574591。PMID 33076975。
Rudin, Cynthia (2019)。"停止为高风险决策解释黑箱机器学习模型，改用可解释模型"。*自然机器智能*，1 (5): 206–215。doi:10.1038/s42256-019-0048-x。PMC 9122117。PMID 35603010。
Hu, Tongxi; Zhang, Xuesong; Bohrer, Gil; Liu, Yanlan; Zhou, Yuyu; Martin, Jay; Li, Yang; Zhao, Kaiguang (2023)。"通过可解释人工智能和可解释机器学习预测作物产量：黑箱模型在评估气候变化对作物产量影响中的危险"。*农业与森林气象学*，336: 109458。doi:10.1016/j.agrformet.2023.109458。S2CID 258552400。
Domingos 2015，第 6 章，第 7 章。
Domingos 2015，第 286 页。
"单像素变化欺骗 AI 程序"。*BBC 新闻*，2017 年 11 月 3 日。原文存档于 2018 年 3 月 22 日。检索于 2018 年 3 月 12 日。
"人工智能存在幻觉问题，修复起来困难重重"。*Wired*，2018 年。原文存档于 2018 年 3 月 12 日。检索于 2018 年 3 月 12 日。
Madry, A.; Makelov, A.; Schmidt, L.; Tsipras, D.; Vladu, A. (2019 年 9 月 4 日)。"朝着抗对抗攻击的深度学习模型迈进"。arXiv:1706.06083 [stat.ML]。
"对抗性机器学习 – CLTC 加州大学伯克利分校长期网络安全中心"。CLTC。原文存档于 2022 年 5 月 17 日。检索于 2022 年 5 月 25 日。
"机器学习模型易受不可检测的后门攻击"。*The Register*。原文存档于 2022 年 5 月 13 日。检索于 2022 年 5 月 13 日。
"任何机器学习算法中都可以植入不可检测的后门"。*IEEE Spectrum*，2022 年 5 月 10 日。原文存档于 2022 年 5 月 11 日。检索于 2022 年 5 月 13 日。
Goldwasser, Shafi; Kim, Michael P.; Vaikuntanathan, Vinod; Zamir, Or (2022 年 4 月 14 日)。"在机器学习模型中植入不可检测的后门"。arXiv:2204.06974 [cs.LG]。
Kohavi, Ron (1995)。"交叉验证和自助法在准确性估计和模型选择中的研究"（PDF）。国际人工智能联合会议。原文存档（PDF）于 2018 年 7 月 12 日。检索于 2023 年 3 月 26 日。
Catal, Cagatay (2012)。"软件故障预测研究的性能评估指标"（PDF）。*匈牙利应用技术学报*，9 (4)。检索于 2016 年 10 月 2 日。
引用错误：所引用的文献 Ethics of artificial intelligence Müller-2020 没有定义（参见帮助页面）。
Garcia, Megan (2016)。"机器中的种族主义"。*世界政策期刊*，33 (4)：111–117。doi:10.1215/07402775-3813015。ISSN 0740-2775。S2CID 151595343。
Bostrom, Nick (2011)。"人工智能的伦理"（PDF）。原文存档（PDF）于 2016 年 3 月 4 日。检索于 2016 年 4 月 11 日。
Edionwe, Tolulope。"反对种族主义算法的斗争"。*The Outline*。原文存档于 2017 年 11 月 17 日。检索于 2017 年 11 月 17 日。
Jeffries, Adrianne。"机器学习是种族主义的，因为互联网是种族主义的"。*The Outline*。原文存档于 2017 年 11 月 17 日。检索于 2017 年 11 月 17 日。
Silva, Selena; Kenney, Martin (2018)。"算法、平台和种族偏见：一篇综合性论文"（PDF）。*Phylon*，55 (1 & 2)：9–37。ISSN 0031-8906。JSTOR 26545017。原文存档（PDF）于 2024 年 1 月 27 日。
Wong, Carissa (2023 年 3 月 30 日)。"AI 的‘公平性’研究因缺乏多样性而受阻"。*Nature*。doi:10.1038/d41586-023-00935-z。PMID 36997714。S2CID 257857012。原文存档于 2023 年 4 月 12 日。检索于 2023 年 12 月 9 日。
Zhang, Jack Clark。"人工智能指数报告 2021"（PDF）。斯坦福人类中心人工智能研究所。原文存档（PDF）于 2024 年 5 月 19 日。检索于 2023 年 12 月 9 日。
Caliskan, Aylin; Bryson, Joanna J.; Narayanan, Arvind (2017 年 4 月 14 日)。"从语言语料库自动推导的语义包含人类般的偏见"。*Science*，356 (6334)：183–186。arXiv:1608.07187。Bibcode:2017Sci...356..183C。doi:10.1126/science.aal4230。ISSN 0036-8075。PMID 28408601。S2CID 23163324。
Wang, Xinan; Dasgupta, Sanjoy (2016)，Lee, D. D.; Sugiyama, M.; Luxburg, U. V.; Guyon, I.（编辑），"通过单调嵌入进行 L1 最近邻搜索的算法"（PDF），*神经信息处理系统进展 29*，Curran Associates，Inc.，第 983-991 页，原文存档（PDF）于 2017 年 4 月 7 日，检索于 2018 年 8 月 20 日。
M.O.R. Prates; P.H.C. Avelar; L.C. Lamb (2019 年 3 月 11 日)。"评估机器翻译中的性别偏见——以 Google 翻译为案例"。arXiv:1809.02208 [cs.CY]。
Narayanan, Arvind (2016 年 8 月 24 日)。"语言必然包含人类偏见，因此机器也会从语言语料库中学习到这些偏见"。*自由探索*。原文存档于 2018 年 6 月 25 日。检索于 2016 年 11 月 19 日。
Metz, Rachel (2016 年 3 月 24 日)。"微软为何意外释放了一个新纳粹性爱机器人"。*MIT 科技评论*。原文存档于 2018 年 11 月 9 日。检索于 2018 年 8 月 20 日。
Vincent, James (2018 年 1 月 12 日)。"谷歌通过从其图像标记技术中移除大猩猩‘修复’了其种族主义算法"。*The Verge*。原文存档于 2018 年 8 月 21 日。检索于 2018 年 8 月 20 日。
Crawford, Kate (2016 年 6 月 25 日)。"观点 | 人工智能的白人男性问题"。*纽约时报*。原文存档于 2021 年 1 月 14 日。检索于 2018 年 8 月 20 日。
Simonite, Tom (2017 年 3 月 30 日)。"微软：人工智能尚不够灵活，无法帮助企业"。*MIT 科技评论*。原文存档于 2018 年 11 月 9 日。检索于 2018 年 8 月 20 日。
Hempel, Jessi (2018 年 11 月 13 日)。"费-费·李的使命：让机器更好地为人类服务"。*Wired*。ISSN 1059-1028。原文存档于 2020 年 12 月 14 日。检索于 2019 年 2 月 17 日。
Char, D. S.; Shah, N. H.; Magnus, D. (2018)。"在医疗保健中实施机器学习——解决伦理挑战"。*新英格兰医学杂志*，378 (11)：981–983。doi:10.1056/nejmp1714229。PMC 5962261。PMID 29539284。
Research, AI (2015 年 10 月 23 日)。"用于语音识别的深度神经网络"。airesearch.com。原文存档于 2016 年 2 月 1 日。检索于 2015 年 10 月 23 日。
"GPU 继续主导 AI 加速器市场"。*InformationWeek*，2019 年 12 月。原文存档于 2020 年 6 月 10 日。检索于 2020 年 6 月 11 日。
Ray, Tiernan (2019)。"人工智能正在改变计算的整个性质"。*ZDNet*。原文存档于 2020 年 5 月 25 日。检索于 2020 年 6 月 11 日。
"AI 与计算"。*OpenAI*，2018 年 5 月 16 日。原文存档于 2020 年 6 月 17 日。检索于 2020 年 6 月 11 日。
"什么是类脑计算？它如何改变计算的未来"。*ZDNET*，2020 年 12 月 8 日。检索于 2024 年 11 月 21 日。
"康奈尔大学与 NTT 的物理神经网络：一种‘实现深度神经网络的激进替代方法’，可以训练任意物理系统"。*Synced*，2021 年 5 月 27 日。原文存档于 2021 年 10 月 27 日。检索于 2021 年 10 月 12 日。
"纳米意大利面解决神经网络的功耗问题"。*The Register*，2021 年 10 月 5 日。原文存档于 2021 年 10 月 6 日。检索于 2021 年 10 月 12 日。
Fafoutis, Xenofon; Marchegiani, Letizia; Elsts, Atis; Pope, James; Piechocki, Robert; Craddock, Ian (2018 年 5 月 7 日)。"通过嵌入式机器学习延长可穿戴传感器的电池寿命"。2018 年 IEEE 第四届物联网世界论坛（WF-IoT）。第 269–274 页。doi:10.1109/WF-IoT.2018.8355116。hdl:1983/b8fdb58b-7114-45c6-82e4-4ab239c1327f。ISBN 978-1-4673-9944-9。S2CID 19192912。原文存档于 2022 年 1 月 18 日。检索于 2022 年 1 月 17 日。
"嵌入式系统的机器学习初学者指南"。*Analytics India Magazine*，2021 年 6 月 2 日。原文存档于 2022 年 1 月 18 日。检索于 2022 年 1 月 17 日。
Synced (2022 年 1 月 12 日)。"谷歌、普渡大学与哈佛大学的开源 TinyML 框架在 FPGA 上实现高达 75 倍的加速"。*Synced*。原文存档于 2022 年 1 月 18 日。检索于 2022 年 1 月 17 日。
Giri, Davide; Chiu, Kuan-Lin; Di Guglielmo, Giuseppe; Mantovani, Paolo; Carloni, Luca P. (2020 年 6 月 15 日)。"ESP4ML：基于平台的嵌入式机器学习系统芯片设计"。2020 年欧洲设计、自动化与测试会议（DATE）。第 1049–1054 页。arXiv:2004.03640。doi:10.23919/DATE48585.2020.9116317。ISBN 978-3-9819263-4-7。S2CID 210928161。原文存档于 2022 年 1 月 18 日。检索于 2022 年 1 月 17 日。
Louis, Marcia Sahaya; Azad, Zahra; Delshadtehrani, Leila; Gupta, Suyog; Warden, Pete; Reddi, Vijay Janapa; Joshi, Ajay (2019)。"面向 RISC-V 上的 TensorFlow Lite 的深度学习"。哈佛大学。原文存档于 2022 年 1 月 17 日。检索于 2022 年 1 月 17 日。
Ibrahim, Ali; Osta, Mario; Alameh, Mohamad; Saleh, Moustafa; Chible, Hussein; Valle, Maurizio (2019 年 1 月 21 日)。"嵌入式机器学习的近似计算方法"。2018 年第 25 届 IEEE 国际电子学、线路与系统会议（ICECS）。第 845–848 页。doi:10.1109/ICECS.2018.8617877。ISBN 978-1-5386-9562-3。S2CID 58670712。原文存档于 2022 年 1 月 17 日。检索于 2022 年 1 月 17 日。
"dblp: TensorFlow Eager: 一个多阶段的、嵌入 Python 的机器学习领域特定语言"。dblp.org。原文存档于 2022 年 1 月 18 日。检索于 2022 年 1 月 17 日。
Branco, Sérgio; Ferreira, André G.; Cabral, Jorge (2019 年 11 月 5 日)。"资源匮乏的嵌入式系统、FPGA 和终端设备中的机器学习：一项综述"。*电子学*，8 (11)：1289。doi:10.3390/electronics8111289。hdl:1822/62521。ISSN 2079-9292。

16. 来源

Domingos, Pedro (2015 年 9 月 22 日)。*The Master Algorithm: How the Quest for the Ultimate Learning Machine Will Remake Our World*。Basic Books。ISBN 978-0465065707。
Nilsson, Nils (1998)。*Artificial Intelligence: A New Synthesis*。Morgan Kaufmann。ISBN 978-1-55860-467-4。原文存档于 2020 年 7 月 26 日。检索于 2019 年 11 月 18 日。
Poole, David; Mackworth, Alan; Goebel, Randy (1998)。*Computational Intelligence: A Logical Approach*。纽约：Oxford University Press。ISBN 978-0-19-510270-3。原文存档于 2020 年 7 月 26 日。检索于 2020 年 8 月 22 日。
Russell, Stuart J.; Norvig, Peter (2003)，*Artificial Intelligence: A Modern Approach*（第 2 版），新泽西州 Upper Saddle River：Prentice Hall，ISBN 0-13-790395-2。

17. 进一步阅读

Nils J. Nilsson，《Introduction to Machine Learning》，Wayback Machine 存档于 2019 年 8 月 16 日。
Trevor Hastie, Robert Tibshirani 和 Jerome H. Friedman (2001)。*The Elements of Statistical Learning*，Springer，ISBN 0-387-95284-5，Wayback Machine 存档于 2013 年 10 月 27 日。
Pedro Domingos (2015 年 9 月)，*The Master Algorithm*，Basic Books，ISBN 978-0-465-06570-7。
Ian H. Witten 和 Eibe Frank (2011)。*Data Mining: Practical Machine Learning Tools and Techniques*，Morgan Kaufmann，664 页，ISBN 978-0-12-374856-0。
Ethem Alpaydin (2004)。*Introduction to Machine Learning*，MIT Press，ISBN 978-0-262-01243-0。
David J. C. MacKay，《Information Theory, Inference, and Learning Algorithms》，Cambridge: Cambridge University Press, 2003，ISBN 0-521-64298-1，Wayback Machine 存档于 2016 年 2 月 17 日。
Richard O. Duda, Peter E. Hart, David G. Stork (2001)，*Pattern Classification*（第 2 版），Wiley, New York，ISBN 0-471-05669-3。
Christopher Bishop (1995)。*Neural Networks for Pattern Recognition*，Oxford University Press，ISBN 0-19-853864-2。
Stuart Russell 和 Peter Norvig (2009)，*Artificial Intelligence – A Modern Approach*，Pearson，ISBN 9789332543515，Wayback Machine 存档于 2011 年 2 月 28 日。
Ray Solomonoff，《An Inductive Inference Machine》，*IRE Convention Record*，Information Theory 章节，第二部分，第 56–62 页，1957 年。
Ray Solomonoff，《An Inductive Inference Machine》，Wayback Machine 存档于 2011 年 4 月 26 日，《1956 年达特茅斯夏季研究会议关于人工智能的私密报告》。
Kevin P. Murphy (2021)。*Probabilistic Machine Learning: An Introduction*，MIT Press，Wayback Machine 存档于 2021 年 4 月 11 日。

18. 外部链接

国际机器学习学会
mloss 是一个开源机器学习软件的学术数据库。

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。