数据科学是一个交叉学科领域,它使用科学的方法,计算过程,算法和操作系统从结构化和非结构化数据中获得知识和观点。[1][2] 数据科学与数据挖掘,大数据是同一个概念,即:“使用最强大的计算机硬件、最强大的编程系统和最有效的算法来帮助人们解决实际问题”。[3]
数据科学是一个“结合了统计学知识、数据分析技能、机器学习理论及其相关方法的概念”,是为了通过数据来“理解和分析实际中的问题”。[4] 它结合了数学、统计学、计算机科学和信息科学等众多领域中提取得到的技术和理论。图灵奖得主吉姆·格雷(Jim Gray)将数据科学称为科学研究的“第四范式”(四类范式分别为实验范式、理论范式、仿真计算范式,以及现在讨论的数据驱动范式),并明确肯定了“由于信息技术的影响一切科学范畴内的事物都在发生改变”以及数据洪流的出现。[5][6] 2015年,美国统计协会将数据库管理、统计和机器学习以及分布式和并行系统确定为三个新兴的基础职业方向。[7]
2012年,《哈佛商业评论》的一篇报道中将数据科学这一职业称为“21世纪最性感的工作”,[8] “数据科学”一词也逐渐流行起来。目前人们经常将数据科学一词与商业分析,[9]商业智能,预测建模分析和统计学等一些之前常用的概念来进行互换。汉斯·罗斯林(Hans Rosling)博士则对“数据科学是性感的”这句话进行了另一种转述,声称“统计学现在是全世界最性感的学科”[10],这句话也被引用在了2011年BBC电视台的一部纪录片中。内特·西尔弗(Nate Silver)认为数据科学这一名词正逐渐在统计学领域中流行起来。[11] 然而目前多数情况下,科学家对于数据科学的定义还仅仅局限在将早期使用到的一些科学方法和解决方案进行简单地重新命名,以此来吸引更多人的注意,这种行为可能会导致数据科学这一术语“定义模糊且缺乏实用性。”[12] 尽管现在许多大学的人才培养计划中提供数据科学这一学位证书,但在执行过程中依旧存在无法在培养方向或课程内容安排上得到共识等问题。[9] 目前许多数据科学和大数据项目也不能得到有用的结果,分析其失败的原因,往往是因为人们对于资源不能够进行有效的管理和利用,这一困境也让人们对数据科学这一方向的发展产生了众多质疑。[13][14][15][16]
过去三十年间“数据科学”一词已经出现在不同场合,但直到最近才被人们定义为一个专有名词。在早期的引用中,彼得·诺尔(Peter Naur)曾在1960年将其用作计算机科学这一名词的替换。之后诺尔又由此引申出了新术语“datalogy”。[17] 1974年,在诺尔发表的《计算机理论简明综述》 中,他在对当代数据处理方法的广泛应用这一研究论述章节中公开的使用了数据科学这一名词。
1996年,国际分类理论联合组织(The International Federation of Classification Societies,IFCS)的成员聚集在日本神户参加两年一次举办的协会会议,会议标题为“数据科学、分类及其相关方法”[18]。这也是数据科学这一名词在被Chikio Hayashi引用在一次圆桌会议后[4],第一次被引用在重要会议上。
1997年11月,C.F.Jeff Wu在其被任命为密歇根大学H.C. Carver Professorship这一职位的就职演讲上发表了题为“统计学=数据科学?”的演说[19] 。[20]在这次演讲中,他将统计学的工作描述为收集数据、数据建模和分析以及制定决策这三步。演讲的最后,他首次提出了“数据科学”这个现代的,非计算机科学的术语,同时他主张将统计学和统计学专家重新命名为数据科学和数据科学家。[19]之后,在1998年为了纪念印度科学家、统计学家和印度统计研究所的创始人普拉昌达·钱德拉·马哈拉诺比斯(Prasanta Chandra Mahalanobis)而举办的系列纪念讲座中,他将其第一篇纪念演讲也命名为“统计学 = 数据科学?”。[21]
2001年,威廉·克里夫兰(William S. Cleveland)在他的文章《数据科学:用来扩展统计学在实际中技术应用的方向》中,介绍数据科学为一门独立学科,并提出这门学科将统计学知识和先进的数据计算能力进行了结合,该文章发表在《国际统计学综论》2001年4月版第69卷第1期。[22] 在他的这篇报告中,克利夫兰提出了他认为涵盖数据科学领域的六个相关技术领域:多学科调查分析、数据模型及其方法,数据计算,教育学,工具评估和理论研究。
2002年4月,国际科学理事会(The International Council for Science,ICSU)下属的科学和技术相关数据委员会(Committee on Data for Science and Technology,CODATA)[23] 创办了《数据科学期刊》,[24] 一份主要囊括对数据系统的描述、上传至网络的相关出版作品、相关技术应用和相关法律问题等内容的期刊。[25] 此后不久,2003年1月,哥伦比亚大学创办了《数据科学杂志》,[26] 该杂志为所有数据工作者提供了一个表达观点和交流想法的平台。这份杂志主要包括统计方法和量化研究的应用等内容。2005年,国家科学委员会(The National Science Board)出版了《长期的数字类型数据收集过程:推动21世纪科学研究和教育发展》,其中将数据科学家定义为“指那些在进行数字类型数据收集这一过程中起到决定性作用的人,比如信息和计算机科学家,进行数据库管理和软件编程人员,相关学术领域专家、决策分析专家、图书馆管理员、档案分析人员等等”,其主要工作内容是“对数字类型数据进行创造性的查询和分析”[27]
2007年, 图灵奖得主吉姆·格雷提出“数据驱动类型科学”是科学的“第四范式”,指通过对海量数据的计算分析来作为科学研究的主要方法[5][6] ,同时他还设想“未来会出现一个所有科学文献都上传至网络中的世界,所有科学数据都会上传至网络中,并且它们之间可以进行相互合作。”[28]
2012年,DJ 帕蒂尔(DJ Patil)在《哈佛商业评论》(Harvard Business Review)发表的《数据科学家:21世纪最性感的工作》一文中,[8] 声称自己在2008年和杰夫哈默巴赫(Jeff Hammerbacher)共同创造了数据科学这个术语,并用这个词语作为他们在LinkedIn和FaceBook的工作标签。他声称数据科学家是“一个新兴品种”,并且“数据科学家的稀缺正在成为限制某些行业发展的重要因素”,但值得注意的是他的论述内容将数据科学家更多的描述为商业领域人才。
2013年,IEEE数据科学和高级分析工作组(The IEEE Task Force on Data Science and Advanced Analytics)[29] 正式成立。2013年,首届“欧洲数据分析会议”在卢森堡举行,期间成立了 欧洲数据科学协会(European Association for Data Science (EuADS))。2014年发起了IEEE数据科学和高级分析国际会议,这也是数据科学领域的第一次国际性质会议。[30] 2014年,General Assembly创办了针对学生付费参加的数据科学训练营,同年The Data Incubator发布了具有竞争性质的数据科学研究奖学金。[31] 2014年,美国统计学会其下属分会之一:统计学习和数据挖掘分会(The American Statistical Association section on Statistical Learning and Data Mining)将其发布的期刊更名为《统计分析和数据挖掘:美国统计学会数据科学期刊》(“Statistical Analysis and Data Mining: The ASA Data Science Journal”),并在2016年将其分会名称改为“统计学习和数据科学”(“Statistical Learning and Data Science”)。[32] 2015年,Springer公司创办了《国际数据科学与分析期刊》(The International Journal on Data Science and Analytics)[33] ,旨在发布数据科学和大数据分析方面相关的原创内容。 2015年9月,在英国科尔切斯特的埃塞克斯大学举行的第三届ECDA会议上, Gesellschaft für Klassifikation (GfKl) 被正式收纳到“数据科学学会”(“Data Science Society”)名下。
“数据科学”一词最近在商业管理领域逐渐流行。[34] 尽管很多人认为数据科学一词很大程度是用来表示“数据挖掘”和“大数据”的一个新兴词语,但许多批判性学者和新闻工作者认为数据科学和统计学这两个术语之间没有区别。[3] 吉尔·普雷斯(Gil Press)在《福布斯》杂志上撰文称,数据科学是一个还没有得到明确定义的新兴词汇,目前也只是简单的在某些特定场合下作为“商业分析”一词的替换,比如说一些研究生学位项目。[9] 在美国统计协会举办的联合统计学术会议(The Joint Statistical Meetings of American Statistical Association)上,著名的应用统计学家内特·西尔弗(Nate Silver)在其主题演讲中的问答部分指出,“我认为数据科学家仅仅是统计学家的另一种更有趣的叫法....统计学是科学的一个分支。数据科学家一词在某种程度上有点多余,人们不应该摒弃统计学家这个术语。”[11] 同样的,在商业领域,多名研究人员和分析师表示,仅仅依靠数据科学家还远远不足以给予相关企业真正的竞争优势[35] ,同时提出数据科学家只是相关企业能够有效利用大数据所需要设置的四种工作岗位之一,其余三种岗位分别为:数据分析师、大数据开发人员和大数据工程师。[36]
另一方面,对这些批评的回应也同样很多。欧文·瓦拉多夫斯基-伯格(Irving Wladawsky-Berger)在2014年《华尔街日报》发表的一篇文章中将人们对于数据科学日渐高涨的兴趣与计算机科学的美好的未来进行对比。他认为,虽然数据科学和其他交叉学科领域一样,接收了大量来自学术界和工业界的理论方法和实践技术,但在之后的发展中这些知识和技术会不断转变直至融合成为一门新的独立学科。他指出计算机科学这一学科当初也不得不面对类似这样的尖锐指责和批评,但现在它已经发展成为一门备受重视的独立学科。[37] 其他类似的回应还包括,在2013年12月,NYU Stern 的瓦桑·达尔(Vasant Dhar)和其他许多对数据科学保持支持态度的学者一样,[37] 针对性的指出数据科学不同于所有学科现有的仅侧重于解释相关数据集的数据分析常规。数据科学寻求发掘出可以用于预测分析的相关应用,探索其可行性和连续性。[1] 这一具有实际工程性质的目标也促使传统的数据分析能力远远无法达到数据科学的要求。现在,那些缺乏坚实理论基础的学科和应用,比如健康科学和社会科学等领域,可以结合数据科学的知识来得到进一步的发掘和利用,并创建出强大的预测模型。[1]
2015年9月,斯坦福大学的教授大卫多诺霍(David Donoho)公开反对在众多批评议论中三个对数据科学这一名词简单化且具有误导性的定义,从而进一步推动了瓦桑·达尔(Vasant Dhar)的主张。[38] 首先,多诺霍指出数据科学不等同于大数据,因为数据集的大小不能用来作为区分数据科学和统计学的标准。[38] 其次,数据科学不能草率的使用一些计算机能力如对大数据集进行整理排序来定义,因为这些计算机技能已经普遍应用于所有学科的学术分析。[38] 第三,数据科学是一个非常注重应用领域的方向,目前许多为学生提供的学术项目也还远远无法满足成为数据科学家的要求,而许多研究生项目却仍旧盲目的宣称他们为学生安排的数据分析和统计学训练可以满足数据科学项目的基本要求。[38][39] 作为一名统计学领域的专家,多诺霍不断追随着同行的脚步,坚定的支持数据科学需要不断地扩充其知识内容这一主张,[38] 其他统计学专家的主张包括约翰·钱伯斯(John Chambers)鼓励统计学专家要不断从数据中学习,[40]威廉·克利夫兰鼓励人们优先使用数据应用型预测分析软件并从中获得帮助,而不是先试图去解释其中的理论。[22]这些统计学专家希望数据科学领域对各学科知识的包容性能够日益增加,从传统的统计学范畴中走出来并逐渐成为一个全新的领域。
对于数据科学的未来,多诺霍提出在全世界建立一个不断成长的开放型科学学术环境,在这里,学术性刊物使用到的数据集等内容可以被所有学术研究人员查阅调用。[38] 美国国家健康研究所目前已经宣布计划在未来逐步提高其研究数据的可复现性和公开透明度。[41] 其他的大型期刊也在不断效仿这一行为。[42][43] 照这样发展下去,数据科学在未来不仅仅会在规模上和应用范畴上超越统计学的理论,还会对当前其他所有的学术和研究范式进行一次革新。[38] 正如多诺霍所说,“随着科学数据和科学相关资料的不断普及和公开透明化,数据科学这一领域及其所带来的影响将在未来十几年不断扩大。”[38]
^Dhar, V. (2013). "Data science and prediction". Communications of the ACM. 56 (12): 64–73. doi:10.1145/2500499..
^Jeff Leek (2013-12-12). "The key word in "Data Science" is not Data, it is Science". Simply Statistics..
^Leskovec, Jure; Rajaraman, Anand; Ullman, Jeffrey David. Mining of Massive Datasets (PDF) (Preprint of 3rd ed.). Cambridge University Press. p. 1..
^Hayashi, Chikio (1998-01-01). "What is Data Science? Fundamental Concepts and a Heuristic Example". In Hayashi, Chikio; Yajima, Keiji; Bock, Hans-Hermann; Ohsumi, Noboru; Tanaka, Yutaka; Baba, Yasumasa. Data Science, Classification, and Related Methods. Studies in Classification, Data Analysis, and Knowledge Organization (in 英语). Springer Japan. pp. 40–51. doi:10.1007/978-4-431-65950-1_3. ISBN 9784431702085..
^Stewart Tansley; Kristin Michele Tolle (2009). The Fourth Paradigm: Data-intensive Scientific Discovery. Microsoft Research. ISBN 978-0-9825442-0-4..
^Bell, G.; Hey, T.; Szalay, A. (2009). "COMPUTER SCIENCE: Beyond the Data Deluge". Science. 323 (5919): 1297–1298. doi:10.1126/science.1170411. ISSN 0036-8075. PMID 19265007..
^"ASA Statement on the Role of Statistics in Data Science". AMSTATNEWS. American Statistical Association. 2015-10-01. Retrieved 2019-05-29..
^Davenport, Thomas H.; Patil, DJ (Oct 2012), Data Scientist: The Sexiest Job of the 21st Century, Harvard Business Review.
^"Data Science: What's The Half-Life Of A Buzzword?". Forbes. 2013-08-19..
^Singer, Natasha (2011-04-02). "When the Data Struts Its Stuff" (in 英语). Retrieved 2018-09-01..
^"Nate Silver: What I need from statisticians". 23 Aug 2013..
^Warden, Pete (2011-05-09). "Why the term "data science" is flawed but useful". O'Reilly Radar (in 英语). Retrieved 2018-05-20..
^"Are You Setting Your Data Scientists Up to Fail?". Harvard Business Review. 2018-01-25. Retrieved 2018-05-26..
^"70% of Big Data projects in UK fail to realise full potential". www.consultancy.uk (in 英语). Retrieved 2018-05-26..
^"The Data Economy: Why do so many analytics projects fail? – Analytics Magazine". Analytics Magazine (in 英语). 2014-07-07. Retrieved 2018-05-26..
^"Data Science: 4 Reasons Why Most Are Failing to Deliver". www.kdnuggets.com (in 英语). Retrieved 2018-05-26..
^Naur, Peter (1 July 1966). "The science of datalogy". Communications of the ACM. 9 (7): 485. doi:10.1145/365719.366510..
^Press, Gil. "A Very Short History Of Data Science"..
^Wu, C. F. J. (1997). "Statistics = Data Science?" (PDF). Retrieved 9 October 2014..
^"Identity of statistics in science examined". The University Records, 9 November 1997, The University of Michigan. Retrieved 12 August 2013..
^"P.C. Mahalanobis Memorial Lectures, 7th series". P.C. Mahalanobis Memorial Lectures, Indian Statistical Institute. Archived from the original on 29 October 2013. Retrieved 18 Jul 2017..
^Cleveland, W. S. (2001). Data science: an action plan for expanding the technical areas of the field of statistics. International Statistical Review / Revue Internationale de Statistique, 21–26.
^International Council for Science: Committee on Data for Science and Technology. (2012, April). CODATA, The Committee on Data for Science and Technology. Retrieved from International Council for Science : Committee on Data for Science and Technology: http://www.codata.org/.
^Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols Archived 3 4月 2012 at the Wayback Machine.
^Data Science Journal. (2002, April). Contents of Volume 1, Issue 1, April 2002. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents.
^The Journal of Data Science. (2003, January). Contents of Volume 1, Issue 1, January 2003. Retrieved from http://www.jds-online.com/v1-1.
^National Science Board. "Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century". National Science Foundation. Retrieved 30 June 2013..
^Markoff, John (2009-12-14). "Essays Inspired by Microsoft's Jim Gray, Who Saw Science Paradigm Shift". The New York Times (in 英语). ISSN 0362-4331. Retrieved 2018-04-26..
^"IEEE Task Force on Data Science and Advanced Analytics"..
^"2014 IEEE International Conference on Data Science and Advanced Analytics". Archived from the original on 29 March 2017..
^"NY gets new bootcamp for data scientists: It's free, but harder to get into than Harvard". Venture Beat. Retrieved 2016-02-22..
^Talley, Jill (2016-06-01). "ASA Expands Scope, Outreach to Foster Growth, Collaboration in Data Science". AMSTATNEWS. American Statistical Association. Archived from the original on 2017-02-05. Retrieved 2017-02-04..
^"Journal on Data Science and Analytics"..
^Darrow, Barb (May 21, 2015). "Data science is still white hot, but nothing lasts forever". Fortune. Retrieved November 20, 2017..
^Miller, Steven (2014-04-10). "Collaborative Approaches Needed to Close the Big Data Skills Gap". Journal of Organization Design (in 英语). 3 (1): 26–30. doi:10.7146/jod.9823. ISSN 2245-408X..
^De Mauro, Andrea; Greco, Marco; Grimaldi, Michele; Ritala, Paavo (2018). "Human resources for Big Data professions: A systematic classification of job roles and required skill sets". Information Processing & Management. 54 (5): 807–817. doi:10.1016/j.ipm.2017.05.004..
^Wladawsky-Berger, Irving (May 2, 2014). "Why Do We Need Data Science When We've Had Statistics for Centuries?". The Wall Street Journal. Retrieved November 20, 2017..
^Donoho, David (September 2015). "50 Years of Data Science" (PDF). Based on a Talk at Tukey Centennial Workshop, Princeton NJ Sept 18 2015..
^Barlow, Mike (2013). The Culture of Big Data. O'Reilly Media, Inc..
^Chambers, John M. (1993-12-01). "Greater or lesser statistics: a choice for future research". Statistics and Computing (in 英语). 3 (4): 182–184. doi:10.1007/BF00141776. ISSN 0960-3174..
^Collins, Francis S.; Tabak, Lawrence A. (2014-01-30). "NIH plans to enhance reproducibility". Nature. 505 (7485): 612–613. doi:10.1038/505612a. ISSN 0028-0836. PMC 4058759. PMID 24482835..
^McNutt, Marcia (2014-01-17). "Reproducibility". Science (in 英语). 343 (6168): 229. doi:10.1126/science.1250475. ISSN 0036-8075. PMID 24436391..
^Peng, Roger D. (2009-07-01). "Reproducible research and Biostatistics". Biostatistics (in 英语). 10 (3): 405–408. doi:10.1093/biostatistics/kxp014. ISSN 1465-4644. PMID 19535325..
暂无