数据分析是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息、告知结论和支持决策。数据分析有多个方面和方法,包括不同名称下的不同技术,并用于不同的商业、科学和社会科学领域。在当今的商业世界,数据分析在使决策更加科学并帮助企业更有效地运营方面发挥着作用。[1]
数据挖掘是一种特殊的数据分析技术,侧重于建模和知识发现,用于预测目的而并非纯粹的描述目的,而商业智能涵盖了很大程度上依赖于聚合的数据分析,主要侧重于商业信息。[2]在统计应用中,数据分析可分为描述性统计、探索性数据分析(EDA)和验证性数据分析(CDA)。EDA侧重于发现数据中的新特征,而CDA则侧重于确认或伪造现有假设。预测分析侧重于应用统计模型进行预测或分类,而文本分析应用统计、语言和结构技术从文本源(一种非结构化数据)中提取信息并对其进行分类。以上都是各种各样的数据分析。
数据集成是数据分析的先驱, 数据分析与数据可视化和数据传播密切相关。术语数据分析 有时被用作数据建模的同义词。
分析指的是将一个整体分解成单独的部分进行单独的检查。数据分析是获取原始数据并将其转换成对用户决策有用的信息的过程。收集和分析数据以回答问题、测试假设或反驳理论。[3]
统计学家John Tukey在1961年将数据分析定义为:“分析数据的程序,解释这些程序结果的技术,计划收集数据以使其分析更容易、更精确或更准确的方法,以及所有的机械和结果(数学)统计数据适用于分析数据。”[4]
可以区分几个阶段如下所述。这些阶段是迭代的,因为来自后面阶段的反馈可能导致前面阶段的额外工作。[5]数据挖掘中使用的CRISP框架有类似的步骤。
数据作为分析的输入是必要的,这是根据指导分析的人或客户(他们将使用分析的最终产品)的要求指定的。将在其上收集数据的实体的一般类型被称为实验单元(例如,人或人群)。可以指定和获得关于人口的特定变量(例如年龄和收入)。数据可以是数字的或分类的(即数字的文本标签)。[5]
数据是从各种来源收集的。分析人员可以将这些要求传达给数据的保管人,例如组织内的信息技术人员。数据也可以从环境中的传感器收集,例如交通摄像机、卫星、记录设备等。它也可以通过面谈获得,从在线资源下载或阅读文档。[5]
必须对最初获得的数据进行处理或组织,以便进行分析。例如,这些可能涉及将数据以表格格式(即结构化数据)放入行和列中以供进一步分析,例如在电子表格或统计软件中。[5]
必须处理或组织最初获得的数据以进行分析。例如,这些可能在电子表格或统计软件中涉及将数据以表格格式(即结构化数据)放入行和列中以供进一步分析。
一旦经过处理和组织,数据可能不完整、包含重复项或错误。数据清理的需要来自数据输入和存储方式的问题。数据清理是防止和纠正这些错误的过程。常见的任务包括记录匹配、识别数据的不准确性、现有数据的整体质量,[6] 重复数据删除和列分段。[7]这些数据问题也可以通过各种分析技术来识别。例如,对于财务信息,特定变量的总数可以与被认为可靠的单独公布的数字进行比较。[8]也可以审查高于或低于预定阈值的异常金额。有几种类型的数据清理取决于数据的类型,如电话号码、电子邮件地址、雇主等。异常值检测的定量数据方法可以用来去除可能输入错误的数据。文本数据拼写检查器可以用来减少输入错误的单词,但是很难判断单词本身是否正确。[9]
一旦数据被清除,就可以进行分析。分析人员可以应用各种称为探索性数据分析的技术来开始理解数据中包含的消息。[10][11] 探索过程可能会导致额外的数据清理或额外的数据请求,因此这些活动本质上可能是迭代的。可以生成描述性统计数据,例如平均值或中位数,以帮助理解数据。数据可视化也可以用于以图形格式检查数据,以获得关于数据中消息的其他见解。[5]
数学公式或称为算法的模型可以应用于数据,以识别变量之间的关系,例如相关性或因果关系。一般而言可以开发模型,根据数据中的其他变量来评估数据中的特定变量,一些剩余误差取决于模型精度(即数据=模型+误差)。[3]
推论统计包括测量特定变量之间关系的技术。例如,回归分析可以用来模拟广告的变化(自变量 X )是否解释了销售额的变化(因变量 Y )。在数学术语中,Y (销售)是X (广告)的函数 。它可以描述为Y = aX + b +错误,其中模型的设计使得当模型预测Y的给定范围的X 值时,a 和b使误差最小化。分析人员可能试图建立描述数据的模型,以简化分析和传达结果。[3]
数据产品是一种计算机应用程序,它接收数据输入并生成输出,然后将它们反馈到环境中。它可以基于模型或算法。例如,一个应用程序分析有关客户购买历史记录的数据,并推荐客户可能喜欢的其他购买。[5]
一旦分析了数据,就可以以多种格式向分析用户报告,以支持他们的需求。用户可能会有反馈,这导致额外的分析。因此,大部分分析周期是迭代的。[5]
在决定如何传达结果时,分析人员可能会考虑数据可视化技术,以帮助清晰有效地向受众传达信息。数据可视化使用信息显示(如表格和图表)来帮助传达数据中包含的关键消息。表格有助于查找特定数字的用户,而图表(例如条形图或折线图)有助于解释数据中包含的定量信息。
Stephen Few描述了八种类型的定量消息,用户可能试图从一组数据中理解或传达这些消息,以及用于帮助传达消息的相关图形。指定需求的客户和执行数据分析的分析人员可能会在过程中考虑这些消息。
作者Jonathan Koomey 推荐了一系列理解定量数据的最佳实践。其中包括:
对于被检查的变量,分析人员通常会获得它们的描述性统计数据,例如平均值、中位数和标准差。他们还可以分析关键变量的分布,以了解各个值如何围绕平均值聚类。
麦肯锡公司的顾问们将一种技术命名为MECE原理,这种技术可以将一个定量问题分解为它的组成部分。每一层都可以分解成它的组成部分;每个子部分必须相互排斥,并共同加到它们上面的层。这种关系被称为“相互排斥、共同彻底”或MECE。例如,利润按定义可以分为总收入和总成本。反过来,总收入可以按其组成部分进行分析,如A、B和C部门的收入(它们相互排斥),并应加到总收入中(统称为全部收入)。
分析人员可以使用稳健的统计方法来解决某些分析问题。假设检验用于分析人员对真实情况做出特定假设,并收集数据以确定该情况是真还是假。例如,假设可能是“失业对通货膨胀没有影响”,这与一个被称为菲利普斯曲线的经济学概念有关。假设检验包括考虑I型和II型错误的可能性,这与数据支持接受还是拒绝假设有关。
当分析人员试图确定自变量X对因变量Y的影响程度时,可以使用回归分析(例如,“失业率(X)的变化对通货膨胀率(Y)的影响程度如何?”)。这是一种试图对数据建模或拟合方程线或曲线的尝试,使得Y是X的函数。
当分析人员试图确定自变量X允许变量Y的程度时,可以使用必要条件分析(Necessary condition analysis ,NCA)(例如,“某一通货膨胀率(Y)所需的某一失业率(X)的范围是多少?")。而(多元)回归分析使用加法逻辑,其中每个X变量可以产生结果并且X可以相互补偿(它们足够但不是必需的),必要条件分析(NCA)使用必要性逻辑,其中一个或多个X变量允许结果存在,但可能不会产生(它们是必要但不充分)。必须存在每个必要条件,并且无法进行补偿。
与上面概述的一般消息传递不同,用户可能在数据集中有特定的兴趣数据点。下表列出了这种低级用户分析活动。分类法也可以由三个活动极点来组织:检索值、查找数据点和排列数据点。[15][16][17][18]
# | 任务 | 一般描述 | 形式摘要 | 例子 |
---|---|---|---|---|
1 | 检索值 | 给定一组特定案例,找到这些案例的属性。 | 数据案例{A,B,C,...}中的属性{X,Y,Z,...}的值是多少? | - 福特蒙迪欧每加仑跑多少英里? - 《乱世佳人》这部电影有多长时间? |
2 | 过滤 | 给定属性值的一些具体条件,找到满足这些条件的数据案例。 | 哪些数据案例满足条件{A,B,C ...}? | - 哪些Kellogg的谷物含有高纤维素? - 哪些喜剧获奖? - 哪些基金表现落后于SP-500? |
3 | 计算派生值 | 给定一组数据用例,计算这些数据用例的聚合数字表示。 | 在给定的数据集S中,聚合函数F的值是多少? | -后谷类食品的平均卡路里含量是多少? -所有商店的总收入是多少? -有多少汽车制造商? |
4 | 求极值 | 查找在数据集中具有超出其范围的属性的极值的数据案例。 | 关于属性A的最高/最低N个数据案例是什么? | - MPG最高的车是什么? - 哪位导演/电影赢得了最多奖项? - Marvel Studios电影的最新发行日期是什么? |
5 | 排序 | 给定一组数据案例,根据一些顺序度量对它们进行排序。 | 根据属性A的值,数据集S的排序顺序是多少? | - 按重量订购汽车。 - 按卡路里排列谷物。 |
6 | 确定范围 | 给定一组数据案例和感兴趣的属性,找到集合中的值范围。 | 数据集S中属性A的值范围是多少? | - 胶片长度范围是多少? - 汽车马力的范围是多少? - 数据集中有哪些女演员? |
7 | 表征分布 | 给定一组数据案例和感兴趣的定量属性,表征该属性值在该集合上的分布。 | 数据集S中属性A的值的分布是什么? | - 谷物中碳水化合物的分布是什么? - 购物者的年龄分布是多少? |
8 | 发现异常 | 识别给定关系或期望的给定数据案例集中的任何异常,例如, 统计异常值 | S数据案例中的哪些数据案例具有意外/异常值? | - 马力和加速度之间的关系是否有例外? - 蛋白质中是否有异常值? |
9 | 集群 | 给定一组数据案例,找到具有相似属性值的集群。 | 数据案例S中的哪些数据案例在属性{X,Y,Z,...}中的值相似? | - 是否有类似脂肪/卡路里/糖的谷物组? - 是否有一组典型的胶片长度? |
10 | 关联 | 给定一组数据案例和两个属性,确定这些属性的值之间的有用关系。 | 在给定的数据集S中,属性X和Y之间的相关性是多少? | - 碳水化合物和脂肪之间是否存在相关性? - 原产国和MPG之间是否存在相关性? - 不同性别的人有首选付款方式吗? - 这些年来是否有增加电影长度的趋势? |
11 | 语境[18] | 给定一组数据案例,找到数据与用户的上下文相关性。 | 数据案例S中的哪些数据案例与当前用户的上下文相关? | -是否有一些餐厅根据我目前的卡路里摄入量来提供食物? |
进行数据分析的分析人员或受众之间可能存在有效分析的障碍。区分事实和观点、认知偏差和不精确都是对可靠数据分析的挑战。
您有权获得自己的意见,但您无权获得自己的事实。
Daniel Patrick Moynihan有效的分析需要获得相关事实来回答问题,支持结论或正式意见,或者测试假设。根据定义,事实是无可辩驳的,这意味着任何参与分析的人都应该能够同意它们。例如,2010年8月,国会预算办公室(CBO)估计,将2001年和2003年布什减税政策延长至2011-2020年期间,将增加约3.3万亿美元的国债。[19]每个人都应该能够同意,事实上这确实是CBO报告的内容;他们都可以检查报告。这使它成为事实。人们是否同意CBO是他们自己的观点。
另一个例子是,上市公司的审计师必须就上市公司的财务报表是否“在所有重要方面都得到公平陈述”达成正式意见。这需要对事实数据和证据进行广泛分析以支持他们的观点。当从事实到意见的飞跃时,总是存在意见错误的可能性。
存在各种各样的认知偏差会对分析产生负面影响。例如,确认偏差是指以确认一个人的先入为主的方式搜索或解释信息的倾向。此外,个人可能会破坏不支持其观点的信息。
分析人员可能会接受专门培训,以了解这些偏差以及如何克服它们。在《情报心理学分析》一书中,退休的CIA分析人员Richards Heuer写道,分析人员应该清楚地描绘他们的假设和推理链,并指明结论中所涉及的不确定性的程度和来源。他强调程序有助于揭示和辩论不同的观点。[20]
有效的分析人员通常擅长各种数字技术。然而,普通人可能不具备这种数字或算术素养;他们被认为是数学盲。传递数据的人也可能试图误导或误传,故意使用错误的数字技术。[21]
例如,一个数字是上升还是下降可能不是关键因素。更重要的可能是相对于另一个数字的数字,例如政府收入或支出相对于经济规模(GDP)的大小,或者企业财务报表中相对于收入的成本金额。这种数字技术被称为归一化[8]或者常规大小。分析人员采用了许多这样的技术,无论是针对通货膨胀进行调整(即比较真实与定性数据),还是考虑人口增长、人口统计等因素。分析人员应用各种技术来处理上面部分描述的各种定量信息。
分析人员也可以在不同的假设或场景下分析数据。例如,当分析人员进行财务报表分析时,他们通常会在不同的假设下重新编制财务报表,以帮助对未来现金流进行估计,然后根据某个利率将其折现为现值,以确定公司或其股票的估值。同样,CBO分析了各种政策选择对政府收入、支出和赤字的影响,为关键措施创造了替代的未来情景。
可以使用数据分析方法来预测建筑物的能耗。[22]执行数据分析过程的不同步骤是为了实现智能建筑,在智能建筑中,建筑管理和控制操作(包括供暖、通风、空调、照明和安全)通过模拟建筑用户的需求并优化能源和时间等资源而自动实现。
分析是“广泛使用数据、统计和定量分析,解释和预测模型以及基于事实的管理来推动决策和行动。”它是商业智能的一个子集,是一组使用数据来理解和分析业务绩效的技术和过程。[23]
在教育领域,大多数教育工作者都可以使用数据系统来分析学生数据。[24]这些数据系统以非计数器数据格式(嵌入标签、补充文档和帮助系统,并做出密钥包/显示和内容决策)向教育者呈现数据,以提高教育者数据分析的准确性。[25]
这一部分包含了相当技术性的解释,可能对从业者有所帮助。
初始数据分析阶段和主要分析阶段之间最重要的区别是,在初始数据分析期间,避免任何旨在回答原始研究问题的分析。初始数据分析阶段由以下四个问题指导:[26]
数据质量
应该尽早检查数据的质量。数据质量可以通过多种方式评估,使用不同类型的分析:频率计数、描述性统计(平均值、标准差、中位数)、正态性(偏度、峰度、频率直方图、n:变量与数据集外部变量的编码方案进行比较,如果编码方案不可比,则可能进行校正。
在初始数据分析阶段评估数据质量的分析选择取决于将在主要分析阶段进行的分析。[27]
测量质量
当测量仪器的质量不是研究的重点或研究问题时,只能在初始数据分析阶段进行检查。应检查测量仪器的结构是否与文献中报告的结构一致。
评估测量有两种方法:[注:似乎只有一种方法被列出]
初始转换
在评估了数据和测量的质量之后,可以决定估算缺失的数据,或者对一个或多个变量进行初始转换,尽管这也可以在主分析阶段完成。[29]
变量的可能转换有:[30]
研究的实施是否实现了研究设计的意图?
人们应该检查随机化程序的成功,例如通过检查背景和实质变量是否在组内和组间均匀分布。
如果研究不需要或不使用随机化程序,应检查非随机抽样的成功与否,例如通过检查样本中是否代表了感兴趣人群的所有子群。
应该检查的其他可能的数据失真包括:
数据样本的特征
在任何报告或文章中,样品的结构都必须准确描述。当在主要分析阶段进行子组分析时,准确确定样品的结构(特别是子组的大小)尤为重要。
数据样本的特征可通过以下方式评估:
初始数据分析的最后阶段
在最后阶段,记录初始数据分析的结果,并采取必要、优选和可能的纠正措施。
此外,主要数据分析的原始计划可以而且应该更详细地指定或重写。
为了做到这一点,可以并且应该做出关于主要数据分析的几个决定:
分析
在初始数据分析阶段可以使用几种分析:[34]
在分析中考虑变量的测量水平很重要,因为每个水平都有特殊的统计技术:[35]
非线性分析
当从非线性系统中记录数据时,非线性分析通常是必要的。非线性系统会表现出复杂的动态效应,包括分叉、混沌、谐波和次谐波,而这些都是用简单的线性方法无法分析的。非线性数据分析与非线性系统辨识密切相关。[36]
在主要分析阶段,进行旨在回答研究问题的分析,以及撰写研究报告初稿所需的任何其他相关分析。[37]
探索性和验证性方法
在主要分析阶段,可以采用探索性或验证性方法。通常这种方法是在收集数据之前决定的。在探索性分析中,在分析数据之前没有明确的假设,并且在数据中搜索能够很好地描述数据的模型。在验证性分析中,测试了关于数据的明确假设。
探索性数据分析应该仔细解释。当同时测试多个模型时,很有可能发现其中至少有一个是重要的,但这可能是由于类型1错误。当用例如Bonferroni 校正测试多个模型时,务必调整显著性水平。此外,不应在同一数据集中用验证性分析来跟踪探索性分析。探索性分析是用来为一个理论寻找想法的,但也不是用来检验这个理论。当在数据集中发现模型是探索性的,那么在同一数据集中用验证性分析来跟踪该分析可能仅仅意味着验证性分析的结果是由最初导致探索性模型的相同类型1错误引起的。因此,验证性分析不会比最初的探索性分析提供更多信息。[38]
结果的稳定性
重要的是获得一些关于结果可推广性的指示。[39]虽然这通常很难检查,但可以查看结果的稳定性。结果可靠且可重现吗?有两种主要方法可以做到这一点。
值得注意的免费数据分析软件包括:
^Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050.
^Exploring Data Analysis.
^Judd, Charles and, McCleland, Gary (1989). Data Analysis. Harcourt Brace Jovanovich. ISBN 0-15-516765-0..
^John Tukey-The Future of Data Analysis-July 1961.
^Schutt, Rachel; O'Neil, Cathy (2013). Doing Data Science. O'Reilly Media. ISBN 978-1-449-35865-5..
^Clean Data in CRM: The Key to Generate Sales-Ready Leads and Boost Your Revenue Pool Retrieved 29th July, 2016.
^"Data Cleaning". Microsoft Research. Retrieved 26 October 2013..
^Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006.
^Hellerstein, Joseph (27 February 2008). "Quantitative Data Cleaning for Large Databases" (PDF). EECS Computer Science Division: 3. Retrieved 26 October 2013..
^Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004.
^Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997.
^Grandjean, Martin (2014). "La connaissance est un réseau" (PDF). Les Cahiers du Numérique. 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54..
^Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004.
^Stephen Few-Perceptual Edge-Graph Selection Matrix.
^Robert Amar, James Eagan, and John Stasko (2005) "Low-Level Components of Analytic Activity in Information Visualization".
^William Newman (1994) "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts".
^Mary Shaw (2002) "What Makes Good Research in Software Engineering?".
^"ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications". ScholarSpace. HICSS50. Retrieved May 24, 2017..
^"Congressional Budget Office-The Budget and Economic Outlook-August 2010-Table 1.7 on Page 24" (PDF). Retrieved 2011-03-31..
^"Introduction". cia.gov..
^Bloomberg-Barry Ritholz-Bad Math that Passes for Insight-October 28, 2014.
^González-Vidal, Aurora; Moreno-Cano, Victoria (2016). "Towards energy efficiency smart buildings models based on intelligent data analytics". Procedia Computer Science. 83 (Elsevier): 994–999. doi:10.1016/j.procs.2016.04.213..
^Davenport, Thomas and, Harris, Jeanne (2007). Competing on Analytics. O'Reilly. ISBN 978-1-4221-0332-6..
^Aarons, D. (2009). Report finds states on course to build pupil-data systems. Education Week, 29(13), 6..
^Rankin, J. (2013, March 28). How data Systems & reports can either fight or propagate the data analysis error epidemic, and how educator leaders can help. Presentation conducted from Technology Information Center for Administrative Leadership (TICAL) School Leadership Summit..
^Adèr 2008a, p. 337..
^Adèr 2008a, pp. 338-341..
^Adèr 2008a, pp. 341-342..
^Adèr 2008a, p. 344..
^Tabachnick & Fidell, 2007, p. 87-88..
^Adèr 2008a, pp. 344-345..
^Adèr 2008a, p. 345..
^Adèr 2008a, pp. 345-346..
^Adèr 2008a, pp. 346-347..
^Adèr 2008a, pp. 349-353..
^Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013.
^Adèr 2008b, p. 363..
^Adèr 2008b, pp. 361-362..
^Adèr 2008b, pp. 361-371..
^"The machine learning community takes on the Higgs". Symmetry Magazine. July 15, 2014. Retrieved 14 January 2015..
^Nehme, Jean (September 29, 2016). "LTPP International Data Analysis Contest". Federal Highway Administration. Retrieved October 22, 2017..
^"Data.Gov:Long-Term Pavement Performance (LTPP)". May 26, 2016. Retrieved November 10, 2017..
暂无