数据挖掘是用机器学习、统计学和数据库的交叉方法在大型的数据集中发现模式的计算过程。[1] 数据挖掘是一个跨学科的计算机科学和统计学分支,总体目标是从一个数据集中提取信息(使用智能方法),并将其转换成可理解的结构以供进一步使用。[1][2][3][4] 数据挖掘是“数据库知识发现”过程(KDD)的分析步骤。[5] 除了原始分析步骤,它还涉及数据库和数据管理方面、数据预处理、模型与推断方面考量、兴趣度度量、复杂度考虑、发现结构、可视化和在线更新等后处理。[1] 数据分析和数据挖掘的区别在于,数据分析用于测试数据集的模型和假设,例如,分析营销活动的有效性,而不管数据量如何;相比之下,数据挖掘使用机器学习和统计模型来发现大量数据中的秘密或隐藏模式。[6]
“数据挖掘”这个术语实际上使用不当,因为目标是从大量数据中提取模式和知识,而不是从数据本身中提取(挖掘)。[7] 它也是[8] 一个流行语,经常应用于大规模数据或信息处理(数据采集、数据提取、数据存储、数据分析和数据统计),以及计算机决策支持系统方面的应用,包括人工智能(例如机器学习)和商业智能。《数据挖掘:实用机器学习技术及Java实现》[9] (主要涵盖机器学习内容)一书最初被命名为“实用机器学习”,而术语“数据挖掘”只是出于营销原因而添加的。[10] 通常情况下,使用更为正式的术语(大规模)数据分析和分析学,或者指出实际的研究方法(人工智能和机器学习)会更合适一些。
实际的数据挖掘任务是对大量数据进行半自动或自动分析,以提取以前未知的、有趣的模式,例如数据记录(通过聚类分析)、数据的异常记录(通过异常检测)和数据之间的关系(通过关联规则挖掘、顺序模式挖掘)。这通常涉及数据库技术,如空间索引。这些潜在信息可通过对输入数据处理之后的总结来呈现,并且可以用于进一步的分析,比如,用于机器学习和预测分析。举个例子,进行数据挖掘操作时可能要把数据分成多组,然后这些组可以使用决策支持系统用来获得更准确的预测结果。不过数据收集、数据预处理以及结果解释和撰写报告都不算数据挖掘的步骤,而是作为附加步骤属于整个KDD进程。
类似术语“数据疏浚”、“数据捕捞”和“数据探测”指的是使用数据挖掘方法来采样,这些数据集(或可能太小)太小,以致无法对发现的任何模式的有效性作出可靠的统计推断。然而,这些方法可以用于创建新的假设来检验更大的数据总体。
20世纪60年代,统计学家和经济学家使用数据捕捞或数据疏浚等术语来指代他们认为在没有先验假设的情况下分析数据的不良做法。经济学家迈克尔·洛弗尔在1983年《经济研究评论》上发表的一篇文章中批评了也以类似的方式对“数据挖掘”一词的使用。洛弗尔指出,这种做法伪装成各种别名,从“实验”(正面)到“捕捞”或“窥探”(负面)。[11]
1990年左右,数据挖掘这个术语出现在数据库社区,此时的数据挖掘通常具有积极的含义。在20世纪80年代的短时间内,使用了“数据挖掘”一词,但它被总部设在圣地亚哥的公司HNC注册商标,并用以宣传他们的资料库探勘工作站;[12] 研究人员因此转向了数据挖掘。使用的其他术语包括数据考古、信息收集、信息发现、知识提取等。Gregory Piatetsky-Shapiro在同一主题的第一次研讨会(KDD-1989)中创造了术语“数据库中的知识发现”, (KDD-1989) 因此,这个术语在人工智能和机器学习社区变得更加流行,同时在商业和新闻界也越来越受欢迎。[13] 目前,数据挖掘和知识发现这两个术语可以互换使用。
在学术界,主要的研究论坛始于1995年,当时在AAAI的赞助下,第一届数据挖掘和知识发现国际会议(KDD-95)在蒙特利尔召开,这次会议由Usama Fayyad和Ramasamy Uthurusamy共同主持。一年后,在1996年,Usama Fayyad发行了Kluwer的期刊《数据挖掘与知识发现》,并担任其主编。后来,他创办了Sigkdd探索新闻稿报告。[14] KDD会议成为数据挖掘领域国际顶级会议,提交的研究论文接收率低于18%。《数据挖掘与知识发现》是该领域的顶尖科研期刊。
数据手动提取模式已经有几百年的历史。识别数据中早期方法包括贝叶斯定理(1700年)和回归分析(1800年)。计算机技术的流行、普及和日益增强的力量极大地提高了数据收集、存储和操作能力。随着可用数据在规模和复杂性上的不断增长,直接的“手动”数据分析被间接的、和自动数据处理所不断增强,这得益于计算机科学中的其他发现,如神经网络、聚类分析、遗传算法(1950年)、决策树和决策规则(1960年)以及支持向量机(1990年)。数据挖掘是将这些方法应用在大数据中,旨在揭示隐藏模式的过程。[15] 它利用数据库中存储和索引数据的方式,来更有效地执行实际的学习和发现算法,从而缩小了应用统计学和人工智能(通常提供数学背景)与数据库管理之间的差距,使这种方法能够应用于更大的数据集。
数据库知识发现(KDD)过程通常分为以下几个阶段:
但是这个过程并不是一成不变的,例如数据挖掘的跨行业标准过程(CRISP-DM ),它定义了六个阶段:
或者可以简化为更简单的过程,例如(1)数据预处理,(2)数据挖掘和(3)结果评估。
2002年、2004年、2007年和2014年的调查结果显示,CRIS-DM方法是数据挖掘者使用的主要方法。[16] 在这些调查中,仅有的其他数据挖掘标准是SEMMA。然而,使用CRISP-DM方法的人数是SEMMA的3-4倍。几个研究团队已经发表了关于数据挖掘过程模型的评论,[17][18] 并且Azevedo和Santos在2008年对CRIS-DM和SEMMA进行了比较。[19]
在使用数据挖掘算法之前,必须收集一个目标数据集。由于数据挖掘只能发现实际存在于数据中的模式,所以目标数据集必须大到足够包含这些模式,同时保持足够简洁以在一个可接受的时间范围内挖掘。数据的常见来源是数据集市或数据仓库。在数据挖掘之前,预处理对于分析多变量数据至关重要。然后清洗目标集。数据清理会删除包含噪声和丢失数据的观测量。
数据挖掘涉及六类常见的任务:[5]
数据挖掘可能会被无意中误用,然后会产生看似重要的结果;但是它实际上不能预测未来的行为,也不能在新的数据样本上再现并且几乎没有用处。这通常是因为调查了太多的假设而没有进行适当的统计假设检验。机器学习中的这个问题被称为过度拟合,但是在这个过程的不同阶段可能会出现相同的问题,因此训练/测试集的划分(如果适用的话)可能不足以防止这种情况的发生。[20]
从数据中发现知识的最后一步是验证数据挖掘算法产生的模式是否适用在更广泛的数据集中。数据挖掘算法找到的模式并非都是有效的。数据挖掘算法通常会在训练集中找到通用数据集中不存在的模式,这叫做过度拟合。为了克服这一问题,评估数据挖掘算法时使用了一组未经数据挖掘算法训练的测试数据。将学习到的模式应用于该测试集,并将结果输出与期望输出进行比较。例如,一个试图区分“垃圾邮件”和“合法”电子邮件的数据挖掘算法将在一组训练样本电子邮件上进行训练。一旦经过训练,所学的模式将被应用于未经训练的电子邮件测试集。这些模式的准确性可以通过它们正确分类的电子邮件数量来衡量。许多统计方法可以用来评估算法,例如ROC曲线。
如果所学习的模式不符合期望的标准,则有必要重新评估和改变预处理以及数据挖掘步骤。如果所学的模式确实符合期望的标准,那么最后一步就是解释所学的模式并将其转化为知识。
已经有一些为数据挖掘过程定义标准的工作,例如1999年欧洲跨行业数据挖掘标准过程(CRIS-DM 1.0)和2004年Java数据挖掘标准(JDM 1.0)。在2006年,这些过程(CRISP-DM 2.0 and JDM 2.0)开始了后续发展,但此后一直停滞不前。JDM 2.0在未达成最终草案的情况下被撤回。
为了交换提取的模型(特别是用于预测分析),关键标准是预测模型标记语言(PMML),这是由数据挖掘组织协会(DMG)开发的一种基于XML的语言,许多数据挖掘应用程序都支持这种语言作为交换格式。顾名思义,它只涵盖预测模型,这是一项对业务应用程序非常重要的特定数据挖掘任务。然而,扩展子空间聚类已经被提出独立于DMG。。[25]
如今,只要有可用的数据,就可以使用数据挖掘。数据挖掘的显著例子可以在商业、医学、科学和监视技术中找到。
虽然术语“数据挖掘”本身可能没有伦理含义,但它常常与人们的行为(伦理和其他方面)相关的信息挖掘联系在一起。[26]
在某些情况下,数据挖掘的使用方式可能会引发隐私、合法性和道德伦理方面的问题。[27] 特别是,出于国家安全或执法目的对政府或商业数据集进行数据挖掘,如在全面信息意识计划或建议中,已经引起了隐私问题。[28][29]
数据挖掘需要数据预处理,这可以发现可能危及机密性和隐私义务的信息或模式。实现此目的一种常见方式是通过数据融合。数据融合包括以一种便于分析的方式将数据(可能来自各种数据源)组合在一起 。[30] 这本身并不是数据挖掘,而是在分析之前数据预处理的结果。当数据一旦被编译,数据挖掘者或任何能够访问新编译的数据集的人就能够识别特定的个人,对个人隐私就会产生很大的威胁,尤其是当数据最初是匿名的时候。[31][32][33]
建议个人在收集数据之前了解以下情况:[30]
数据也可以被修改成匿名的,这样可能不容易识别个人。[30] 然而,即使是“未识别”/“匿名”数据集也可能包含足够的信息来识别个人,就像记者能够根据AOL无意中发布的一组搜索历史找到几个人一样。[34]
无意中泄露的个人身份信息导致提供商违反了公平信息处理条例。这种轻率的行为可能会对个人造成经济、情感或身体上的伤害。在一起侵犯隐私权的案件中,Walgreens的客户在2011年对该公司提起诉讼,指控其向数据挖掘公司出售处方信息,而数据挖掘公司反过来又向制药公司提供数据。[35]
欧洲有相当严格的隐私法,并且正在努力进一步加强消费者的权利。然而,美国和欧盟的安全港原则目前将欧洲用户暴露在美国公司的隐私剥削之下。由于Edward Snowden披露了全球监控信息,撤销该协议的讨论越来越多,尤其是数据将完全暴露给美国国家安全局,而达成协议的尝试已经失败。
在美国,美国国会通过了《健康保险可携性与责任法案》(HIPAA)等监管控制措施,解决了人们对隐私的担忧。《HIPAA》要求个人就其提供的信息及其目前和未来的用途提供“知情同意”。根据《生物技术商业周刊》上的一篇文章,AAHC说:“在实践中,HIPAA可能不会提供比研究领域长期存在的规定更大的保护,”。更重要的是,该规则通过知情同意提供保护的目标是接近普通人无法理解的程度。”[36] 这强调了数据融合和挖掘实践中数据匿名的必要性。
美国的信息隐私立法,如HIPAA和《家庭教育权和隐私权法案》(FERPA),仅适用于每项此类法律所涉及的特定领域。美国大多数企业对数据挖掘的使用不受任何法律的控制。
由于欧洲版权法和数据库法缺乏灵活性,未经版权所有者许可挖掘版权内作品(如网络挖掘)是不合法的。在欧洲,如果数据库是纯数据,就可能没有版权,但数据库的权利可能存在,因此数据挖掘受数据库指令的约束。根据Hargreaves review的建议,这导致英国政府在2014年修订了版权法,[37] 允许内容挖掘作为一种限制和例外。这是继日本之后世界上第二个在数据挖掘方面破例的国家。然而,由于版权指令的限制,英国的例外只允许为非商业目的进行内容挖掘。英国版权法也不允许该条款被合同条款所覆盖。2013年,欧洲联盟委员会以欧洲许可证的名义,促进了利益相关方关于文本和数据挖掘的讨论。[38] 解决这一法律问题的重点是许可证,而不是限制和例外,这导致大学、研究人员、图书馆、民间社会团体和开放获取出版商的代表在2013年5月离开利益相关方对话。[39]
与欧洲相比,美国版权法更具有灵活性,特别是在合理使用方面,这意味着美国以及以色列、台湾和韩国等其它合理使用国家的内容挖掘被视为合法。由于内容挖掘是变革性的,也就是说它并没有取代原始作品,因此在合理使用的情况下,它被认为是合法的。例如,作为谷歌图书和解协议的一部分,该案的主审法官裁定,谷歌版权内图书的数字化项目是合法的,部分原因是数字化项目所展示的变革性用途——其中之一是文本和数据挖掘。[40]
以下应用程序在免费/开源许可证下可用。也可以公开访问应用程序源代码。
以下应用程序在专有许可证下可用。
一些研究人员和组织对数据挖掘工具进行了审查,并对数据挖掘者进行了调查。这些识别软件包的一些优点和缺点。它们还概述了数据挖掘者的行为、偏好和观点。其中一些报告包括:
^"Data Mining Curriculum". ACM SIGKDD. 2006-04-30. Retrieved 2014-01-27..
^Clifton, Christopher (2010). "Encyclopædia Britannica: Definition of Data Mining". Retrieved 2010-12-09..
^Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). "The Elements of Statistical Learning: Data Mining, Inference, and Prediction". Archived from the original on 2009-11-10. Retrieved 2012-08-07..
^Han, Kamber, Pei, Jaiwei, Micheline, Jian (June 9, 2011). Data Mining: Concepts and Techniques (3rd ed.). Morgan Kaufmann. ISBN 978-0-12-381479-1.CS1 maint: Multiple names: authors list (link).
^Fayyad, Usama; Piatetsky-Shapiro, Gregory; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF). Retrieved 17 December 2008..
^Olson, D. L. (2007). Data mining in business services. Service Business, 1(3), 181-193. doi:10.1007/s11628-006-0014-7.
^Han, Jiawei; Kamber, Micheline (2001). Data mining: concepts and techniques. Morgan Kaufmann. p. 5. ISBN 978-1-55860-489-6. Thus, data mining should have been more appropriately named "knowledge mining from data," which is unfortunately somewhat long.
^OKAIRP 2005 Fall Conference, Arizona State University Archived 2014-02-01 at the Wayback Machine.
^Witten, Ian H.; Frank, Eibe; Hall, Mark A. (30 January 2011). Data Mining: Practical Machine Learning Tools and Techniques (3 ed.). Elsevier. ISBN 978-0-12-374856-0..
^Bouckaert, Remco R.; Frank, Eibe; Hall, Mark A.; Holmes, Geoffrey; Pfahringer, Bernhard; Reutemann, Peter; Witten, Ian H. (2010). "WEKA Experiences with a Java open-source project". Journal of Machine Learning Research. 11: 2533–2541. the original title, "Practical machine learning", was changed ... The term "data mining" was [added] primarily for marketing reasons..
^Lovell, Michael C. (1983). "Data Mining". The Review of Economics and Statistics. 65 (1): 1–12. doi:10.2307/1924403. JSTOR 1924403..
^Mena, Jesús (2011). Machine Learning Forensics for Law Enforcement, Security, and Intelligence. Boca Raton, FL: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4..
^Piatetsky-Shapiro, Gregory; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Introduction to Data Mining. KD Nuggets. Retrieved 30 August 2012..
^Fayyad, Usama (15 June 1999). "First Editorial by Editor-in-Chief". SIGKDD Explorations. 13 (1): 102. doi:10.1145/2207243.2207269. Retrieved 27 December 2010..
^Kantardzic, Mehmed (2003). Data Mining: Concepts, Models, Methods, and Algorithms. John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336..
^Gregory Piatetsky-Shapiro (2002) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2004) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2007) KDnuggets Methodology Poll, Gregory Piatetsky-Shapiro (2014) KDnuggets Methodology Poll.
^Óscar Marbán, Gonzalo Mariscal and Javier Segovia (2009); A Data Mining & Knowledge Discovery Process Model. In Data Mining and Knowledge Discovery in Real Life Applications, Book edited by: Julio Ponce and Adem Karahoca, ISBN 978-3-902613-53-0, pp. 438–453, February 2009, I-Tech, Vienna, Austria..
^Lukasz Kurgan and Petr Musilek (2006); A survey of Knowledge Discovery and Data Mining process models. The Knowledge Engineering Review. Volume 21 Issue 1, March 2006, pp 1–24, Cambridge University Press, New York, NY, USA doi:10.1017/S0269888906000737.
^Azevedo, A. and Santos, M. F. KDD, SEMMA and CRISP-DM: a parallel overview Archived 2013-01-09 at the Wayback Machine. In Proceedings of the IADIS European Conference on Data Mining 2008, pp 182–185..
^Hawkins, Douglas M (2004). "The problem of overfitting". Journal of Chemical Information and Computer Sciences. 44 (1): 1–12. doi:10.1021/ci0342472. PMID 14741005..
^"Microsoft Academic Search: Top conferences in data mining". Microsoft Academic Search..
^"Google Scholar: Top publications - Data Mining & Analysis". Google Scholar..
^Proceedings Archived 2010-04-30 at the Wayback Machine, International Conferences on Knowledge Discovery and Data Mining, ACM, New York..
^SIGKDD Explorations, ACM, New York..
^Günnemann, Stephan; Kremer, Hardy; Seidl, Thomas (2011). "An extension of the PMML standard to subspace clustering models". Proceedings of the 2011 workshop on Predictive markup language modeling - PMML '11. p. 48. doi:10.1145/2023598.2023605. ISBN 978-1-4503-0837-3..
^Seltzer, William (2005). "The Promise and Pitfalls of Data Mining: Ethical Issues" (PDF). ASA Section on Government Statistics. American Statistical Association..
^Pitts, Chip (15 March 2007). "The End of Illegal Domestic Spying? Don't Count on It". Washington Spectator. Archived from the original on 2007-10-29..
^Taipale, Kim A. (15 December 2003). "Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data". Columbia Science and Technology Law Review. 5 (2). OCLC 45263753. SSRN 546782..
^Resig, John. "A Framework for Mining Instant Messaging Services" (PDF). Retrieved 16 March 2018..
^Think Before You Dig: Privacy Implications of Data Mining & Aggregation Archived 2008-12-17 at the Wayback Machine, NASCIO Research Brief, September 2004.
^Ohm, Paul. "Don't Build a Database of Ruin". Harvard Business Review..
^Darwin Bond-Graham, Iron Cagebook - The Logical End of Facebook's Patents, Counterpunch.org, 2013.12.03.
^Darwin Bond-Graham, Inside the Tech industry's Startup Conference, Counterpunch.org, 2013.09.11.
^AOL search data identified individuals, SecurityFocus, August 2006.
^Kshetri, Nir (2014). "Big data׳s impact on privacy, security and consumer welfare" (PDF). Telecommunications Policy. 38 (11): 1134–1145. doi:10.1016/j.telpol.2014.10.002..
^Biotech Business Week Editors (June 30, 2008); BIOMEDICINE; HIPAA Privacy Rule Impedes Biomedical Research, Biotech Business Week, retrieved 17 November 2009 from LexisNexis Academic.
^UK Researchers Given Data Mining Right Under New UK Copyright Laws. Archived 6月 9, 2014 at the Wayback Machine Out-Law.com. Retrieved 14 November 2014.
^"Licences for Europe - Structured Stakeholder Dialogue 2013". European Commission. Retrieved 14 November 2014..
^"Text and Data Mining:Its importance and the need for change in Europe". Association of European Research Libraries. Retrieved 14 November 2014..
^"Judge grants summary judgment in favor of Google Books — a fair use victory". Lexology.com. Antonelli Law Ltd. Retrieved 14 November 2014..
^Karl Rexer, Heather Allen, & Paul Gearan (2011); Understanding Data Miners, Analytics Magazine, May/June 2011 (INFORMS: Institute for Operations Research and the Management Sciences)..
^Mikut, Ralf; Reischl, Markus (September–October 2011). "Data Mining Tools". Wiley Interdisciplinary Reviews: Data Mining and Knowledge Discovery. 1 (5): 431–445. doi:10.1002/widm.24..
^Kobielus, James; The Forrester Wave: Predictive Analytics and Data Mining Solutions, Q1 2010, Forrester Research, 1 July 2008.
^Herschel, Gareth; Magic Quadrant for Customer Data-Mining Applications, Gartner Inc., 1 July 2008.
^Nisbet, Robert A. (2006); Data Mining Tools: Which One is Best for CRM? Part 1, Information Management Special Reports, January 2006.
^Haughton, Dominique; Deichmann, Joel; Eshghi, Abdolreza; Sayek, Selin; Teebagy, Nicholas; and Topi, Heikki (2003); A Review of Software Packages for Data Mining, The American Statistician, Vol. 57, No. 4, pp. 290–309.
^Goebel, Michael; Gruenwald, Le (June 1999). "A Survey of Data Mining and Knowledge Discovery Software Tools" (PDF). SIGKDD Explorations. 1 (1): 20–33..
暂无