聚类分析(Cluster analysis)或聚类是把相似的对象通过静态分类的方法分成不同的组别或者更多的子集,这样让在同一个子集中的成员对象都有相似的一些属性,常见的包括在坐标系中更加短的空间距离等。它是探索性数据挖掘的主要任务,也是统计数据分析的常用技术,用于许多领域,包括机器学习、模式识别、图像分析、信息检索、生物信息学、数据压缩和计算机图形学。
聚类分析本身不是某一种特定的算法,而是一个大体上的需要解决的任务。它可以通过不同的算法来实现,这些算法在理解集群的构成以及如何有效地找到它们等方面有很大的不同。集群的通用概念包括集群成员之间距离较小的组、数据空间的密集区域、间隔或特定的统计分布。因此,聚类可以被阐释为一个多目标优化问题。适当的聚类算法和参数设置(包括要使用的距离函数、密度阈值或预期聚类数等参数)取决于单个数据集和运算结果的预期用途。聚类分析本身并不是一项自动的任务,而是一个涉及了试验和失败的知识发现或交互式多目标优化的迭代过程。这通常需要修改数据预处理和模型参数,直到结果达到所需的属性。
除了这个术语聚类,还有许多具有相似含义的术语,包括自动分类, 数值分类法, 葡萄蔟集法 (来自古希腊的βότρυς "葡萄") 类型分析 和社团挖掘。细微的差异通常存在于结果的使用中:在数据挖掘中,令人感兴趣的是结果生成的组,而在自动分类中,人们关注的是结果当中的辨别能力。
聚类分析由Driver和Kroeber于1932年在人类学中提出[1]。约瑟夫·祖宾于1938年和罗伯特·泰伦在1939年[2] 分别将聚类分析引入心理学[3]。从1943年[4] 开始,卡德尔就以将聚类分析用于人格心理学中的特质理论分类而闻名。
“聚类”的概念无法精确定义,这也是为什么有这么多聚类算法的原因之一。 它们有一个共同点:都是一组数据对象。然而,不同的研究者会使用不同的聚类模型,并且对于这些聚类模型中的每一个,同样可以给出不同的算法。由不同的算法发现,集群的概念在其属性上有很大的不同。理解这些“聚类模型”是理解不同算法之间差异的关键。典型的集群模型包括:
“聚类”本质上是一组这样的聚类,它通常包含数据集中的所有对象。此外,它可以指定集群彼此之间的关系,例如,彼此嵌入的集群的层次结构。聚类可以大致区分为:
还有更细微的区别,例如:
如上所列,聚类算法可以根据它们的聚类模型进行分类。以下概述将仅列出聚类算法的最突出的例子,因为可能有超过100种已发布的聚类算法。不是所有的聚类算法都会为它们的集群提供模型,因此不容易分类。维基百科解释的算法概述可以在统计算法列表中找到。
现在这里没有客观“正确”聚类算法,但是正如所指出的,“聚类是旁观者的眼睛。”[5] 对于一个特定的问题,最合适的聚类算法通常需要通过实验来选择,除非有数学上的原因使一个聚类模型优于另一个。应该注意的是,为一种模型设计的算法通常会在包含完全不同类型模型的数据集上失败。[5] 例如,k-means算法找不到非凸集群。[5]
基于连通性的集群,也称为 分层聚类,是基于一个核心概念,即物体与附近物体的关系比与远处物体的关系更密切。这些算法根据“对象”的距离将它们连接起来形成“集群”。集群很大程度上可以用连接集群的各个部分所需的最大距离来描述。在不同的距离,将形成不同的聚类,这可以用树图来表示,树图解释了通用名称“分层聚类”的来源:这些算法不提供数据集的单一划分,而提供了在特定距离彼此融合的广泛的聚类层次。在树形图中,y轴表示集群融合的距离,而对象沿着x轴放置,这样集群就不会混淆。
基于连通性的聚类是一整套以距离计算方式为区别的方法。除了通常选择的距离函数,用户还需要决定要使用的链接标准(因为一个集群由多个对象组成,所以有多个候选对象来计算距离)。一般通用的选择被称为单链聚类(最小物距)、完全连锁聚类(最大物距)和UPGMA或WPGMA(“具有算术平均的未加权或加权对组方法”,也称为平均链聚类)。此外,层次聚类可以是聚集(从单个元素开始,然后将它们聚集成集群)或分裂的(从完整的数据集开始,然后将其划分成分区)。
这些方法不会产生数据集的唯一分区,但是用户仍然需要从中选择适当集群的层次结构。它们对于野值的表现不是很稳定,野值要么会显示为额外的集群,要么甚至会导致其他集群合并(称为“链式现象”,特别是单链聚类)。在一般情况下,对于聚集聚类,复杂性是 ,且对于分裂聚类,复杂性是 ,[5] 这使得它们的处理速度对于大型数据集来说太慢。对于某些特殊情况,我们有已知的最佳有效方法(复杂性 ):用于单链聚类的SLINK[6] 和用于完全连锁聚类的CLINK[7] 。在数据挖掘社区,这些方法被认为是聚类分析的理论基础,但通常被认为是过时的。然而,它们确实为许多后来的方法提供了灵感,例如基于密度的聚类。
高斯数据上的单链接。在35个聚类中,最大的聚类开始分裂成更小的部分,而在此之前,由于单链效应,它仍然连接到第二大聚类。
基于密度的聚类上的单链接。提取了20个聚类,其中大部分只包含单个元素,因为链接聚类没有“噪声”的概念。
在基于质心的聚类中,聚类由中心向量表示,该向量不一定是数据集的成员。当集群数量固定为 k, k-均值聚类给出了优化问题的正式定义:找到 k 聚类中心,并将对象分配到最近的聚类中心,使得离聚类的平方距离最小化。
优化问题本身被称为NP难题,因此常用的方法是只搜索近似解。一种特别著名的近似方法是劳埃德算法,[8] 通常简称为"k均值算法"(尽管另一种算法也采用了这个名称)。然而,它只会找到一个局部最优值,并且通常会以不同的随机初始化操作运行多次。k 均值算法的各种变体通常包括一些优化,例如选择多个运行中的最佳运行的同时,还将质心限制在数据集的成员(k-中心点算法),选择中值(k-中心聚类),减少对于初始中心的随机选择(k-means++)或允许模糊聚类分配(模糊c-均值)。
大部分k-均值类型算法需要预先指定集群数量–k ,这被认为是这些算法的最大缺点之一。此外,这些算法更适合大小近似的聚类,因为它们总是将对象分配到最近的质心。这导致聚类边界经常被错误地切割(这并不奇怪,因为该算法优化聚类中心,而不是聚类边界)。
K-均值算法有许多有趣的理论性质。首先,它将数据空间划分成一个沃罗诺伊图的结构。其次,它在概念上接近最近邻分类,因此在机器学习中很流行。第三,它可以被看作是基于模型的聚类的变体,劳埃德算法是下面讨论的该模型的期望最大化算法的变体。
k 均值算法将数据分离到Voronoi单元中,该单元假设聚类大小相同(此图不满足假设)
k 均值算法不能用于表示基于密度的聚类
与统计最密切相关的聚类模型是以分布模型为基础的。聚类很容易被定义为最有可能属于同一分布的对象。这种方法的一个方便的特性是,它非常类似于人造数据集的生成方式:从一个分布中采取随机对象作为样本。
虽然这些方法的理论基础很好,但是,除非我们去限制模型的复杂性,不然它们就会遇到一个称为过拟合的关键问题。一个更复杂的模型通常能够更好地解释数据,这使得选出合适的模型复杂性这件事本身就是困难的。
有一种效果突出的方法被称为高斯混合模型(使用期望最大化算法)。在这里,数据集通常以固定(避免过拟合)数量的高斯分布建模,这些高斯分布被随机初始化,并且其参数被迭代优化以更好地适应数据集。这将收敛到局部上的最优解,所以多次运行可能会产生不同的结果。为了获得硬聚类,对象通常被分配到它们最可能属于的高斯分布;对于软集群,这不是必需的。
基于分布的聚类产生了复杂的聚类模型,可以捕捉属性之间的相关性和依赖性。然而,这些算法给用户带来了额外的负担:对于许多真实数据集,可能没有简明定义的数学模型(例如,假设高斯分布是一个对数据的相当强的假设)。
在高斯分布的数据上,EM的运行效果很好,因为它使用了高斯方法对聚类进行建模
基于密度的聚类不能使用高斯分布来建模
在基于密度的聚类中,[9] 聚类被定义为密度高于数据集其余部分的区域。这些稀疏区域中的对象——这些对象需要去分离聚类——通常被认为是噪声和边界点。
最受欢迎的[10] 基于密度的聚类方法是DBSCAN。[11] 与许多更新的方法相比,它具有一个被称为“密度可达性”的定义明确的聚类模型。类似于基于链接的聚类,它基于特定距离阈值内的连接点。但是,它只连接满足密度标准的点,在原始变体中定义为该半径内的最小数量的其他对象。一个集群由所有密度连接的对象(与许多其他方法不同,它可以形成任意形状的集群)加上这些对象范围内的所有对象组成。DBSCAN的另一个有趣的特性是它的复杂性相当低——它需要在数据库上进行线性数量的范围查询——并且它将在每次运行中发现本质上相同的结果(它对于核心点和噪声点是确定性的算法,但对于边界点不是),因此不需要多次运行它。OPTICS [12] 是DBSCAN的一个归纳,它不需要为范围参数 选择合适的值,并且它会产生与链接聚类相关的分层结果。DeLi-Clu,[13] 即密度-链接-聚类算法结合了单链接聚类和OPTICS的思想,完全消除了 参数,并通过使用R树索引提供优于OPTICS的性能改进。
DBSCAN和OPTICS的主要缺点是它们期望由某种密度的下降来检测聚类边界。例如,在重叠高斯分布的数据集上——人工数据中的一个常见用例——这些算法产生的聚类边界通常看起来是任意的,因为聚类密度会不断降低。在由高斯混合模型组成的数据集上,诸如EM聚类等能够精确建模这种数据的方法几乎总是优于这些算法。
均值漂移是一种聚类方法,根据核密度估计,在这个运行的算法之下,每个对象将被移动到其附近密度最大的区域。最终,对象会收敛到密度的局部最大值。类似于k-均值聚类,这些“密度吸引子”可以作为数据集的代表,但是均值漂移可以检测类似于DBSCAN的任意形状的聚类。由于具有昂贵成本的迭代过程和密度估计,均值漂移通常比DBSCAN或k均值算法慢。此外,均值漂移算法对多维数据的适用性会受到核密度估计不平滑行为的阻碍,这导致了簇尾的过度分裂。[13]
基于密度的DBSCAN聚类
DBSCAN假设集群具有相似的密度,并且可能在分离附近的集群时存在问题
OPTICS是一种DBSCAN变体,改进了对不同密度集群的处理
近年来,在改进现有算法的性能方面人们已经付出了相当大的努力。[14][15] 其中包括CLARANS (Ng和Han, 1994),[16]和BIRCH (Zhang et al., 1996).。[17] 随着最近对于处理越来越大的数据集(也称为大数据)的需求,人们越来越愿意用生成的集群的语义来交换性能。这导致了预聚类方法的发展,例如冠层聚类,它可以有效地处理巨大的数据集,但是产生的“聚类”仅仅是数据集的粗略预划分,然后用现有的较慢的方法(例如k-均值聚类)来分析分区。
对于高维数据,许多现有的方法由于维数灾难而失败,这使得特定的距离函数在高维空间中存在问题。这导致了针对高维数据的新的聚类算法的产生,该算法侧重于子空间聚类(其中仅使用一些属性,并且聚类模型包含聚类的相关属性)和相关聚类,该算法还寻找任意旋转(“相关”)的子空间聚类,该子空间聚类可以通过给出其属性的相关性来建模。[18] 这种聚类算法的例子是CLIQUE[19] 和SUBCLU[20]。
基于密度的聚类方法(特别是DBSCAN/OPTICS系的算法)的思想已经被用于子空间聚类(HiSC,[21] 分层子空间聚类和DiSH[22])和相关聚类(HiCO,[23] 分层相关聚类,4C[24] 使用“相关连接“,ERiC[25] 探索基于分层密度的相关聚类)。
几种不同的基于互信息的聚类系统已经被提出了。一种是玛丽娜·梅勒的信息的变化 度量;[26] 另一种则提供分层聚类。[27] 使用遗传算法,可以优化各种不同的包括互信息在内的拟合函数。[28] 信息传递算法是计算机科学和统计物理的最新发展成果,它也导致了新型聚类算法的产生。[29]
聚类结果的评估(或“验证”)和聚类本身一样困难。[30] 流行的方法包括将聚类总结为单一质量分数的"内部 "评估,将聚类与现有“地面实况”分类进行比较的"外部 "评估,人类专家的"手动 "评估,以及通过评估聚类在预期应用中的效用的"间接 "评估。[31]
内部评价措施的问题在于,它们代表的功能本身可以被视为一个聚类目标。例如,可以通过轮廓系数对数据集进行聚类;除了那以外再没有已知的有效算法来解决这个问题了。通过使用这种内部评估方法,它可以去比较优化问题的相似性,[31] 但没有必要比较聚类用处的大小。
外部评估也有类似的问题:如果我们有这样的“地面实况”标签,那么我们就不需要聚类;但在实际应用中,我们通常没有这样的标签。另一方面,标签只反映了数据集的一种可能的划分,这并不意味着不存在不同的,甚至更好的聚类。
因此,这两种方法都不能最终判断聚类的实际质量,但这需要高度主观的人工评估[31] 。然而,这种统计在识别不良聚类时可以提供大量信息,[32] 但是我们不应该忽视人类的主观评价。[32]
当基于聚类本身的数据评估聚类结果时,这称为内部评估。这些方法通常会为,产生在聚类内相似性高、聚类间相似性低的聚类的算法,分配最佳分数。在聚类评估中使用内部标准的一个缺点是,内部度量上得出的高分不一定代表着有效的信息检索应用。[33] 此外,这种评估偏向于使用相同聚类模型的算法。例如,k-means聚类自然地优化了对象距离,并且基于距离的内部标准可能会对结果聚类作出过高的评分。
因此,内部评估措施最适合深入了解一种算法比另一种算法表现更好的情况,但这并不意味着一种算法会比另一种算法产生更有效的结果。[34] 用这种指标衡量的有效性取决于数据集内存在这种结构的事实。如果数据集包含一组完全不同的模型,或者如果评估衡量的标准完全不同,那么仅为某一种模型设计的算法就没有机会获得高分。[34] 例如,k-均值聚类只能找到凸聚类,许多评价指标都以凸聚类为假设设定。在具有非凸聚类的数据集上,既不使用k均值,也不使用假定为凸性的评价标准,这都是合理的。
内部评估方法有十多种,它们通常是基于同一集群中的项目应该比不同集群中的项目更相似的直觉。[34] 例如,以下方法可用于评估基于内部标准的聚类算法的质量:
n 是集群的数量, 是聚类 的质心, 是集群 中所有元素到质心 的平均距离,和 质心 和 之间的距离。由于产生低簇内距离(高簇内相似度)和高簇间距离(低簇间相似度)的聚类算法具有较低的Davies Bouldin指数,因此基于该准则,产生一组具有最小Davies Bouldin指数的聚类算法被认为是最佳算法。
在外部评估中,聚类结果基于未用于聚类的数据进行评估,例如已知的类标签和外部基准。这样的基准由一组预先分类的项目组成,这些项目通常是由(专家)人类创建的。因此,基准集可以被视为评估的黄金标准。[30] 这些类型的评估方法用于衡量聚类与预定基准类的接近程度。然而,这是否适用于实际数据,或者是否仅适用于具有事实基础事实的合成数据集等问题在近期被讨论过,因为类可以包含内部结构,存在的属性可能不允许聚类分离,或者类可能包含异常。[36] 此外,从知识发现的角度来看,预期的结果不一定是已知知识的再现。[36] 在约束聚类的特殊情况下,在聚类过程中已经使用了元信息(例如类标签),出于评估目的的信息延迟不是微不足道的。[37]
许多衡量标准都是根据用于评估分类任务的变量进行调整的。这类计数指标并非计算一个类被正确分配给单个数据点的次数(称为真阳性),而是评估真正在同一集群中的每对数据点是否都被预测在同一集群中。[30]
如同内部评估,外部评估措施也有若干个,[34] 例如:
是真正阳性的数量, 是真正否定的数量, 是假阳性的数量,并且 是假阴性的数量。兰德指数的一个问题是假阳性和假阴性的权重相等。对于一些集群应用程序来说,这可能是不理想的特性。F-措施解决了这一问题, 机会修正后的兰德指数也解决了此问题。
F-测度可以通过参数 加权回收来平衡假阴性的贡献。设精确度和召回率(两个本身都是外部评估指标)定义如下:
为精确率和 为召回率。我们可以使用以下公式计算F-测量:[33]
注意什么时候 , 。换句话说,当 ,召回对F-measure没有影响,并且在最后的F-测量中, 的增长会为召回分配越来越多的权重。
还要注意 不考虑在内且可以从0向上变化而没有界限。
还要注意 不考虑在内,可以从0向上变化而没有界限。
骰子对称度量使 的权重加倍,同时仍然忽略 :
是真阳性的数量, 是假阳性的数量,并且 是假阴性的数量。 指数是精确度 和召回率 的几何平均值,因此也被称为G测度,而F测量是它们的调和平均数。[40][41] 此外,精确度和召回率也被称为华莱士指数 和 。[42] 召回率、精确度和G-测度的机会标准化版本对应于信息性、标记性和马修斯相关性,并与Kappa密切相关。[43]
测量聚类趋势是测量要聚类的数据中聚类存在的程度,并且可以在尝试聚类之前作为初始测试来执行。一种方法是将数据与随机数据进行比较。通常,随机数据不应该有聚类。
霍普金斯统计有多种公式。[44] 一个典型的例子如下。[45] 在 维度空间内,设 为集合 数据点。考虑随机抽样(不替换)带有成员 的 数据点。也生成一个关于 均匀随机分布的数据点集合 。现在定义两个距离度量, 作为从 到它最近邻的X之间的距离, 作为从 到它最近邻的X之间的距离,然后我们定义霍普金斯统计量为:
应用程序
聚类分析被用来把股票分成几个部门。[52]
^Driver and Kroeber (1932). "Quantitative Expression of Cultural Relationships". University of California Publications in American Archaeology and Ethnology. Quantitative Expression of Cultural Relationships: 211–256 – via http://dpg.lib.berkeley.edu..
^Tryon, Robert C. (1939). Cluster Analysis: Correlation Profile and Orthometric (factor) Analysis for the Isolation of Unities in Mind and Personality. Edwards Brothers..
^Zubin, Joseph (1938). "A technique for measuring like-mindedness". The Journal of Abnormal and Social Psychology (in 英语). 33 (4): 508–516. doi:10.1037/h0055441. ISSN 0096-851X..
^Cattell, R. B. (1943). "The description of personality: Basic traits resolved into clusters". Journal of Abnormal and Social Psychology. 38 (4): 476–506. doi:10.1037/h0054116..
^Everitt, Brian (2011). Cluster analysis. Chichester, West Sussex, U.K: Wiley. ISBN 9780470749913..
^Sibson, R. (1973). "SLINK: an optimally efficient algorithm for the single-link cluster method" (PDF). The Computer Journal. British Computer Society. 16 (1): 30–34. doi:10.1093/comjnl/16.1.30..
^Defays, D. (1977). "An efficient algorithm for a complete link method". The Computer Journal. British Computer Society. 20 (4): 364–366. doi:10.1093/comjnl/20.4.364..
^Lloyd, S. (1982). "Least squares quantization in PCM". IEEE Transactions on Information Theory. 28 (2): 129–137. doi:10.1109/TIT.1982.1056489..
^Kriegel, Hans-Peter; Kröger, Peer; Sander, Jörg; Zimek, Arthur (2011). "Density-based Clustering". WIREs Data Mining and Knowledge Discovery. 1 (3): 231–240. doi:10.1002/widm.30..
^Microsoft academic search: most cited data mining articles Archived 2010-04-21 at the Wayback Machine: DBSCAN is on rank 24, when accessed on: 4/18/2010.
^Ester, Martin; Kriegel, Hans-Peter; Sander, Jörg; Xu, Xiaowei (1996). "A density-based algorithm for discovering clusters in large spatial databases with noise". In Simoudis, Evangelos; Han, Jiawei; Fayyad, Usama M. Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96). AAAI Press. pp. 226–231. ISBN 1-57735-004-9..
^Ankerst, Mihael; Breunig, Markus M.; Kriegel, Hans-Peter; Sander, Jörg (1999). "OPTICS: Ordering Points To Identify the Clustering Structure". ACM SIGMOD international conference on Management of data. ACM Press. pp. 49–60. CiteSeerX 10.1.1.129.6542..
^Achtert, E.; Böhm, C.; Kröger, P. (2006). "DeLi-Clu: Boosting Robustness, Completeness, Usability, and Efficiency of Hierarchical Clustering by a Closest Pair Ranking". LNCS: Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science. 3918: 119–128. doi:10.1007/11731139_16. ISBN 978-3-540-33206-0..
^Sculley, D. (2010). Web-scale k-means clustering. Proc. 19th WWW..
^Huang, Z. (1998). "Extensions to the k-means algorithm for clustering large data sets with categorical values". Data Mining and Knowledge Discovery. 2 (3): 283–304. doi:10.1023/A:1009769707641..
^R. Ng and J. Han. "Efficient and effective clustering method for spatial data mining". In: Proceedings of the 20th VLDB Conference, pages 144–155, Santiago, Chile, 1994..
^Tian Zhang, Raghu Ramakrishnan, Miron Livny. "An Efficient Data Clustering Method for Very Large Databases." In: Proc. Int'l Conf. on Management of Data, ACM SIGMOD, pp. 103–114..
^Kriegel, Hans-Peter; Kröger, Peer; Zimek, Arthur (July 2012). "Subspace clustering". Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 2 (4): 351–364. doi:10.1002/widm.1057..
^Agrawal, R.; Gehrke, J.; Gunopulos, D.; Raghavan, P. (2005). "Automatic Subspace Clustering of High Dimensional Data". Data Mining and Knowledge Discovery. 11: 5–33. CiteSeerX 10.1.1.131.5152. doi:10.1007/s10618-005-1396-1..
^Karin Kailing, Hans-Peter Kriegel and Peer Kröger. Density-Connected Subspace Clustering for High-Dimensional Data. In: Proc. SIAM Int. Conf. on Data Mining (SDM'04), pp. 246–257, 2004..
^Achtert, E.; Böhm, C.; Kriegel, H.-P.; Kröger, P.; Müller-Gorman, I.; Zimek, A. (2006). "Finding Hierarchies of Subspace Clusters". LNCS: Knowledge Discovery in Databases: PKDD 2006. Lecture Notes in Computer Science. 4213: 446–453. CiteSeerX 10.1.1.705.2956. doi:10.1007/11871637_42. ISBN 978-3-540-45374-1..
^Achtert, E.; Böhm, C.; Kriegel, H. P.; Kröger, P.; Müller-Gorman, I.; Zimek, A. (2007). "Detection and Visualization of Subspace Cluster Hierarchies". LNCS: Advances in Databases: Concepts, Systems and Applications. Lecture Notes in Computer Science. 4443: 152–163. CiteSeerX 10.1.1.70.7843. doi:10.1007/978-3-540-71703-4_15. ISBN 978-3-540-71702-7..
^Achtert, E.; Böhm, C.; Kröger, P.; Zimek, A. (2006). "Mining Hierarchies of Correlation Clusters". Proc. 18th International Conference on Scientific and Statistical Database Management (SSDBM): 119–128. CiteSeerX 10.1.1.707.7872. doi:10.1109/SSDBM.2006.35. ISBN 978-0-7695-2590-7..
^Böhm, C.; Kailing, K.; Kröger, P.; Zimek, A. (2004). "Computing Clusters of Correlation Connected objects". Proceedings of the 2004 ACM SIGMOD international conference on Management of data - SIGMOD '04. p. 455. CiteSeerX 10.1.1.5.1279. doi:10.1145/1007568.1007620. ISBN 978-1581138597..
^Achtert, E.; Bohm, C.; Kriegel, H. P.; Kröger, P.; Zimek, A. (2007). "On Exploring Complex Relationships of Correlation Clusters". 19th International Conference on Scientific and Statistical Database Management (SSDBM 2007). p. 7. CiteSeerX 10.1.1.71.5021. doi:10.1109/SSDBM.2007.21. ISBN 978-0-7695-2868-7..
^Meilă, Marina (2003). "Comparing Clusterings by the Variation of Information". Learning Theory and Kernel Machines. Lecture Notes in Computer Science. 2777: 173–187. doi:10.1007/978-3-540-45167-9_14. ISBN 978-3-540-40720-1..
^Kraskov, Alexander; Stögbauer, Harald; Andrzejak, Ralph G.; Grassberger, Peter (1 December 2003). "Hierarchical Clustering Based on Mutual Information". arXiv:q-bio/0311039..
^Auffarth, B. (July 18–23, 2010). "Clustering by a Genetic Algorithm with Biased Mutation Operator". Wcci Cec. IEEE..
^Frey, B. J.; Dueck, D. (2007). "Clustering by Passing Messages Between Data Points". Science. 315 (5814): 972–976. Bibcode:2007Sci...315..972F. CiteSeerX 10.1.1.121.3145. doi:10.1126/science.1136800. PMID 17218491..
^Pfitzner, Darius; Leibbrandt, Richard; Powers, David (2009). "Characterization and evaluation of similarity measures for pairs of clusterings". Knowledge and Information Systems. Springer. 19 (3): 361–394. doi:10.1007/s10115-008-0150-6..
^Feldman, Ronen; Sanger, James (2007-01-01). The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge Univ. Press. ISBN 978-0521836579. OCLC 915286380..
^Weiss, Sholom M.; Indurkhya, Nitin; Zhang, Tong; Damerau, Fred J. (2005). Text Mining: Predictive Methods for Analyzing Unstructured Information. Springer. ISBN 978-0387954332. OCLC 803401334..
^Manning, Christopher D.; Raghavan, Prabhakar; Schütze, Hinrich (2008-07-07). Introduction to Information Retrieval. Cambridge University Press. ISBN 978-0-521-86571-5..
^Estivill-Castro, Vladimir (20 June 2002). "Why so many clustering algorithms – A Position Paper". ACM SIGKDD Explorations Newsletter. 4 (1): 65–75. doi:10.1145/568574.568575..
^Dunn, J. (1974). "Well separated clusters and optimal fuzzy partitions". Journal of Cybernetics. 4: 95–104. doi:10.1080/01969727408546059..
^Färber, Ines; Günnemann, Stephan; Kriegel, Hans-Peter; Kröger, Peer; Müller, Emmanuel; Schubert, Erich; Seidl, Thomas; Zimek, Arthur (2010). "On Using Class-Labels in Evaluation of Clusterings" (PDF). In Fern, Xiaoli Z.; Davidson, Ian; Dy, Jennifer. MultiClust: Discovering, Summarizing, and Using Multiple Clusterings. ACM SIGKDD..
^Pourrajabi, M.; Moulavi, D.; Campello, R. J. G. B.; Zimek, A.; Sander, J.; Goebel, R. (2014). "Model Selection for Semi-Supervised Clustering". Proceedings of the 17th International Conference on Extending Database Technology (EDBT),. pp. 331–342. doi:10.5441/002/edbt.2014.31..
^Rand, W. M. (1971). "Objective criteria for the evaluation of clustering methods". Journal of the American Statistical Association. American Statistical Association. 66 (336): 846–850. arXiv:1704.01036. doi:10.2307/2284239. JSTOR 2284239..
^E. B. Fowlkes & C. L. Mallows (1983), "A Method for Comparing Two Hierarchical Clusterings", Journal of the American Statistical Association 78, 553–569..
^Powers, David (2003). Recall and Precision versus the Bookmaker. International Conference on Cognitive Science. pp. 529–534..
^Arabie, P. "Comparing partitions". Journal of Classification. 2 (1): 1985..
^Wallace, D. L. (1983). "Comment". Journal of the American Statistical Association. 78 (383): 569–579. doi:10.1080/01621459.1983.10478009..
^Powers, David (2012). The Problem with Kappa. European Chapter of the Association for Computational Linguistics. pp. 345–355..
^Hopkins, Brian; Skellam, John Gordon (1954). "A new method for determining the type of distribution of plant individuals". Annals of Botany. Annals Botany Co. 18 (2): 213–227. doi:10.1093/oxfordjournals.aob.a083391..
^Banerjee, A. (2004). "Validating clusters using the Hopkins statistic". IEEE International Conference on Fuzzy Systems. 1: 149–153. doi:10.1109/FUZZY.2004.1375706. ISBN 978-0-7803-8353-1..
^Filipovych, Roman; Resnick, Susan M.; Davatzikos, Christos (2011). "Semi-supervised Cluster Analysis of Imaging Data". NeuroImage. 54 (3): 2185–2197. doi:10.1016/j.neuroimage.2010.09.074. PMC 3008313. PMID 20933091..
^Di Marco, Antonio; Navigli, Roberto (2013). "Clustering and Diversifying Web Search Results with Graph-Based Word Sense Induction". Computational Linguistics. 39 (3): 709–754. doi:10.1162/COLI_a_00148..
^Bewley, A., & Upcroft, B. (2013). Advantages of Exploiting Projection Structure for Segmenting Dense 3D Point Clouds. In Australian Conference on Robotics and Automation [1].
^Bewley, A.; et al. "Real-time volume estimation of a dragline payload". IEEE International Conference on Robotics and Automation. 2011: 1571–1576..
^Basak, S.C.; Magnuson, V.R.; Niemi, C.J.; Regal, R.R. (1988). "Determining Structural Similarity of Chemicals Using Graph Theoretic Indices". Discr. Appl. Math. 19 (1–3): 17–44. doi:10.1016/0166-218x(88)90004-2..
^Huth, R.; et al. (2008). "Classifications of Atmospheric Circulation Patterns: Recent Advances and Applications". Ann. N.Y. Acad. Sci. 1146: 105–152. Bibcode:2008NYASA1146..105H. doi:10.1196/annals.1446.019. PMID 19076414..
^Arnott, Robert D. (1980-11-01). "Cluster Analysis and Stock Price Comovement". Financial Analysts Journal. 36 (6): 56–62. doi:10.2469/faj.v36.n6.56. ISSN 0015-198X..
暂无