The Wayback Machine - https://web.archive.org/web/20221025122739/https://baike.sogou.com/kexue/d10749.htm

数据分析

编辑

数据分析是一个检查、清理、转换和建模数据的过程,目的是发现有用的信息、告知结论和支持决策。数据分析有多个方面和方法,包括不同名称下的不同技术,并用于不同的商业、科学和社会科学领域。在当今的商业世界,数据分析在使决策更加科学并帮助企业更有效地运营方面发挥着作用。[1]

数据挖掘是一种特殊的数据分析技术,侧重于建模和知识发现,用于预测目的而并非纯粹的描述目的,而商业智能涵盖了很大程度上依赖于聚合的数据分析,主要侧重于商业信息。[2]在统计应用中,数据分析可分为描述性统计、探索性数据分析(EDA)和验证性数据分析(CDA)。EDA侧重于发现数据中的新特征,而CDA则侧重于确认或伪造现有假设。预测分析侧重于应用统计模型进行预测或分类,而文本分析应用统计、语言和结构技术从文本源(一种非结构化数据)中提取信息并对其进行分类。以上都是各种各样的数据分析。

数据集成是数据分析的先驱, 数据分析与数据可视化和数据传播密切相关。术语数据分析 有时被用作数据建模的同义词。

1 数据分析过程编辑

数据科学的数据科学流程图, Schutt & O'Neil (2013)

分析指的是将一个整体分解成单独的部分进行单独的检查。数据分析是获取原始数据并将其转换成对用户决策有用的信息的过程。收集和分析数据以回答问题、测试假设或反驳理论。[3]

统计学家John Tukey在1961年将数据分析定义为:“分析数据的程序,解释这些程序结果的技术,计划收集数据以使其分析更容易、更精确或更准确的方法,以及所有的机械和结果(数学)统计数据适用于分析数据。”[4]

可以区分几个阶段如下所述。这些阶段是迭代的,因为来自后面阶段的反馈可能导致前面阶段的额外工作。[5]数据挖掘中使用的CRISP框架有类似的步骤。

1.1 数据要求

数据作为分析的输入是必要的,这是根据指导分析的人或客户(他们将使用分析的最终产品)的要求指定的。将在其上收集数据的实体的一般类型被称为实验单元(例如,人或人群)。可以指定和获得关于人口的特定变量(例如年龄和收入)。数据可以是数字的或分类的(即数字的文本标签)。[5]

1.2 数据收集

数据是从各种来源收集的。分析人员可以将这些要求传达给数据的保管人,例如组织内的信息技术人员。数据也可以从环境中的传感器收集,例如交通摄像机、卫星、记录设备等。它也可以通过面谈获得,从在线资源下载或阅读文档。[5]

1.3 数据处理

用于将原始信息转换为可操作的情报或知识的情报周期的阶段在概念上类似于数据分析中的阶段。

必须对最初获得的数据进行处理或组织,以便进行分析。例如,这些可能涉及将数据以表格格式(即结构化数据)放入行和列中以供进一步分析,例如在电子表格或统计软件中。[5]

必须处理或组织最初获得的数据以进行分析。例如,这些可能在电子表格或统计软件中涉及将数据以表格格式(即结构化数据)放入行和列中以供进一步分析。

1.4 数据清理

一旦经过处理和组织,数据可能不完整、包含重复项或错误。数据清理的需要来自数据输入和存储方式的问题。数据清理是防止和纠正这些错误的过程。常见的任务包括记录匹配、识别数据的不准确性、现有数据的整体质量,[6] 重复数据删除和列分段。[7]这些数据问题也可以通过各种分析技术来识别。例如,对于财务信息,特定变量的总数可以与被认为可靠的单独公布的数字进行比较。[8]也可以审查高于或低于预定阈值的异常金额。有几种类型的数据清理取决于数据的类型,如电话号码、电子邮件地址、雇主等。异常值检测的定量数据方法可以用来去除可能输入错误的数据。文本数据拼写检查器可以用来减少输入错误的单词,但是很难判断单词本身是否正确。[9]

1.5 探索性数据分析

一旦数据被清除,就可以进行分析。分析人员可以应用各种称为探索性数据分析的技术来开始理解数据中包含的消息。[10][11] 探索过程可能会导致额外的数据清理或额外的数据请求,因此这些活动本质上可能是迭代的。可以生成描述性统计数据,例如平均值或中位数,以帮助理解数据。数据可视化也可以用于以图形格式检查数据,以获得关于数据中消息的其他见解。[5]

1.6 建模和算法

数学公式或称为算法的模型可以应用于数据,以识别变量之间的关系,例如相关性或因果关系。一般而言可以开发模型,根据数据中的其他变量来评估数据中的特定变量,一些剩余误差取决于模型精度(即数据=模型+误差)。[3]

推论统计包括测量特定变量之间关系的技术。例如,回归分析可以用来模拟广告的变化(自变量 X )是否解释了销售额的变化(因变量 Y )。在数学术语中,Y (销售)是X (广告)的函数 。它可以描述为Y = aX + b +错误,其中模型的设计使得当模型预测Y的给定范围的X 值时,ab使误差最小化。分析人员可能试图建立描述数据的模型,以简化分析和传达结果。[3]

1.7 数据产品

数据产品是一种计算机应用程序,它接收数据输入并生成输出,然后将它们反馈到环境中。它可以基于模型或算法。例如,一个应用程序分析有关客户购买历史记录的数据,并推荐客户可能喜欢的其他购买。[5]

1.8 通讯

数据可视化以了解数据分析的结果。[10]

一旦分析了数据,就可以以多种格式向分析用户报告,以支持他们的需求。用户可能会有反馈,这导致额外的分析。因此,大部分分析周期是迭代的。[5]

在决定如何传达结果时,分析人员可能会考虑数据可视化技术,以帮助清晰有效地向受众传达信息。数据可视化使用信息显示(如表格和图表)来帮助传达数据中包含的关键消息。表格有助于查找特定数字的用户,而图表(例如条形图或折线图)有助于解释数据中包含的定量信息。

2 定量信息编辑

时间序列用折线图说明美国联邦支出和收入随时间变化的趋势。

散点图说明了在时间点测量的两个变量(通货膨胀和失业)之间的相关性。

Stephen Few描述了八种类型的定量消息,用户可能试图从一组数据中理解或传达这些消息,以及用于帮助传达消息的相关图形。指定需求的客户和执行数据分析的分析人员可能会在过程中考虑这些消息。

  1. 时间序列:在一段时间内捕获单一变量,例如10年内的失业率。折线图可以用来演示趋势。
  2. 排名:分类细分按升序或降序排列,例如销售人员(类别,每个销售人员为分类细分)在单个期间内的销售业绩(度量)排名。条形图可用于显示销售人员之间的比较。
  3. 部分对整体:分类细分是以与整体的比率来衡量的(即在100%之外的百分比)。饼图或条形图可以显示比率的比较,例如市场中竞争对手所代表的市场份额。
  4. 偏差:分类细分与参考进行比较,例如某一给定时间段内某个业务部门的实际支出与预算支出的比较。条形图可以显示实际金额与参考金额的比较。
  5. 频率分布:显示特定变量在给定区间内的观察次数,例如股票市场回报率在0-10%、11-20%等区间内的年数。直方图(一种条形图)可用于此分析。
  6. 相关性:由两个变量(X,Y)表示的观察值之间的比较,以确定它们是倾向于朝同一个方向还是相反的方向移动。例如,绘制几个月的失业率(X)和通货膨胀率(Y)。这个消息通常使用一个散布图。
  7. 名义比较:不按特定顺序比较分类细分,例如按产品代码比较销售量。条形图可用于此比较。
  8. 地理或地理空间:地图或布局中变量的比较,如各州的失业率或建筑物不同楼层的人数。地图是一种典型的图形应用。[13][14]

3 定量数据分析技术编辑

作者Jonathan Koomey 推荐了一系列理解定量数据的最佳实践。其中包括:

  • 在执行分析之前,检查原始数据是否有异常;
  • 重新执行重要的计算,例如验证公式驱动的数据列;
  • 确认主要总计是小计的总和;
  • 检查应该以可预测的方式关联的数字之间的关系,例如比率随时间的变化;
  • 将数字标准化以使比较更容易,例如分析人均数额或相对于国内生产总值的数额,或作为相对于基准年的指数值;
  • 通过分析导致这一结果的因素将问题分解为组成部分,例如股本回报率的杜邦分析法。[8]

对于被检查的变量,分析人员通常会获得它们的描述性统计数据,例如平均值、中位数和标准差。他们还可以分析关键变量的分布,以了解各个值如何围绕平均值聚类。

用于数据分析的MECE原理的说明。

麦肯锡公司的顾问们将一种技术命名为MECE原理,这种技术可以将一个定量问题分解为它的组成部分。每一层都可以分解成它的组成部分;每个子部分必须相互排斥,并共同加到它们上面的层。这种关系被称为“相互排斥、共同彻底”或MECE。例如,利润按定义可以分为总收入和总成本。反过来,总收入可以按其组成部分进行分析,如A、B和C部门的收入(它们相互排斥),并应加到总收入中(统称为全部收入)。

分析人员可以使用稳健的统计方法来解决某些分析问题。假设检验用于分析人员对真实情况做出特定假设,并收集数据以确定该情况是真还是假。例如,假设可能是“失业对通货膨胀没有影响”,这与一个被称为菲利普斯曲线的经济学概念有关。假设检验包括考虑I型和II型错误的可能性,这与数据支持接受还是拒绝假设有关。

当分析人员试图确定自变量X对因变量Y的影响程度时,可以使用回归分析(例如,“失业率(X)的变化对通货膨胀率(Y)的影响程度如何?”)。这是一种试图对数据建模或拟合方程线或曲线的尝试,使得Y是X的函数。

当分析人员试图确定自变量X允许变量Y的程度时,可以使用必要条件分析(Necessary condition analysis ,NCA)(例如,“某一通货膨胀率(Y)所需的某一失业率(X)的范围是多少?")。而(多元)回归分析使用加法逻辑,其中每个X变量可以产生结果并且X可以相互补偿(它们足够但不是必需的),必要条件分析(NCA)使用必要性逻辑,其中一个或多个X变量允许结果存在,但可能不会产生(它们是必要但不充分)。必须存在每个必要条件,并且无法进行补偿。

4 数据用户的分析活动编辑

与上面概述的一般消息传递不同,用户可能在数据集中有特定的兴趣数据点。下表列出了这种低级用户分析活动。分类法也可以由三个活动极点来组织:检索值、查找数据点和排列数据点。[15][16][17][18]

# 任务 一般描述 形式摘要 例子
1 检索值 给定一组特定案例,找到这些案例的属性。 数据案例{A,B,C,...}中的属性{X,Y,Z,...}的值是多少? - 福特蒙迪欧每加仑跑多少英里?

- 《乱世佳人》这部电影有多长时间?

2 过滤 给定属性值的一些具体条件,找到满足这些条件的数据案例。 哪些数据案例满足条件{A,B,C ...}? - 哪些Kellogg的谷物含有高纤维素?

- 哪些喜剧获奖?

- 哪些基金表现落后于SP-500?

3 计算派生值 给定一组数据用例,计算这些数据用例的聚合数字表示。 在给定的数据集S中,聚合函数F的值是多少? -后谷类食品的平均卡路里含量是多少?

-所有商店的总收入是多少?

-有多少汽车制造商?

4 求极值 查找在数据集中具有超出其范围的属性的极值的数据案例。 关于属性A的最高/最低N个数据案例是什么? - MPG最高的车是什么?

- 哪位导演/电影赢得了最多奖项?

- Marvel Studios电影的最新发行日期是什么?

5 排序 给定一组数据案例,根据一些顺序度量对它们进行排序。 根据属性A的值,数据集S的排序顺序是多少? - 按重量订购汽车。

- 按卡路里排列谷物。

6 确定范围 给定一组数据案例和感兴趣的属性,找到集合中的值范围。 数据集S中属性A的值范围是多少? - 胶片长度范围是多少?

- 汽车马力的范围是多少?

- 数据集中有哪些女演员?

7 表征分布 给定一组数据案例和感兴趣的定量属性,表征该属性值在该集合上的分布。 数据集S中属性A的值的分布是什么? - 谷物中碳水化合物的分布是什么?

- 购物者的年龄分布是多少?

8 发现异常 识别给定关系或期望的给定数据案例集中的任何异常,例如, 统计异常值 S数据案例中的哪些数据案例具有意外/异常值? - 马力和加速度之间的关系是否有例外?

- 蛋白质中是否有异常值?

9 集群 给定一组数据案例,找到具有相似属性值的集群。 数据案例S中的哪些数据案例在属性{X,Y,Z,...}中的值相似? - 是否有类似脂肪/卡路里/糖的谷物组?

- 是否有一组典型的胶片长度?

10 关联 给定一组数据案例和两个属性,确定这些属性的值之间的有用关系。 在给定的数据集S中,属性X和Y之间的相关性是多少? - 碳水化合物和脂肪之间是否存在相关性?

- 原产国和MPG之间是否存在相关性?

- 不同性别的人有首选付款方式吗?

- 这些年来是否有增加电影长度的趋势?

11 语境[18] 给定一组数据案例,找到数据与用户的上下文相关性。 数据案例S中的哪些数据案例与当前用户的上下文相关? -是否有一些餐厅根据我目前的卡路里摄入量来提供食物?

5 有效分析的障碍编辑

进行数据分析的分析人员或受众之间可能存在有效分析的障碍。区分事实和观点、认知偏差和不精确都是对可靠数据分析的挑战。

5.1 混淆事实和观点

您有权获得自己的意见,但您无权获得自己的事实。

Daniel Patrick Moynihan

有效的分析需要获得相关事实来回答问题,支持结论或正式意见,或者测试假设。根据定义,事实是无可辩驳的,这意味着任何参与分析的人都应该能够同意它们。例如,2010年8月,国会预算办公室(CBO)估计,将2001年和2003年布什减税政策延长至2011-2020年期间,将增加约3.3万亿美元的国债。[19]每个人都应该能够同意,事实上这确实是CBO报告的内容;他们都可以检查报告。这使它成为事实。人们是否同意CBO是他们自己的观点。

另一个例子是,上市公司的审计师必须就上市公司的财务报表是否“在所有重要方面都得到公平陈述”达成正式意见。这需要对事实数据和证据进行广泛分析以支持他们的观点。当从事实到意见的飞跃时,总是存在意见错误的可能性。

5.2 认知偏差

存在各种各样的认知偏差会对分析产生负面影响。例如,确认偏差是指以确认一个人的先入为主的方式搜索或解释信息的倾向。此外,个人可能会破坏不支持其观点的信息。

分析人员可能会接受专门培训,以了解这些偏差以及如何克服它们。在《情报心理学分析》一书中,退休的CIA分析人员Richards Heuer写道,分析人员应该清楚地描绘他们的假设和推理链,并指明结论中所涉及的不确定性的程度和来源。他强调程序有助于揭示和辩论不同的观点。[20]

5.3 数学盲

有效的分析人员通常擅长各种数字技术。然而,普通人可能不具备这种数字或算术素养;他们被认为是数学盲。传递数据的人也可能试图误导或误传,故意使用错误的数字技术。[21]

例如,一个数字是上升还是下降可能不是关键因素。更重要的可能是相对于另一个数字的数字,例如政府收入或支出相对于经济规模(GDP)的大小,或者企业财务报表中相对于收入的成本金额。这种数字技术被称为归一化[8]或者常规大小。分析人员采用了许多这样的技术,无论是针对通货膨胀进行调整(即比较真实与定性数据),还是考虑人口增长、人口统计等因素。分析人员应用各种技术来处理上面部分描述的各种定量信息。

分析人员也可以在不同的假设或场景下分析数据。例如,当分析人员进行财务报表分析时,他们通常会在不同的假设下重新编制财务报表,以帮助对未来现金流进行估计,然后根据某个利率将其折现为现值,以确定公司或其股票的估值。同样,CBO分析了各种政策选择对政府收入、支出和赤字的影响,为关键措施创造了替代的未来情景。

6 其他主题编辑

6.1 智能建筑

可以使用数据分析方法来预测建筑物的能耗。[22]执行数据分析过程的不同步骤是为了实现智能建筑,在智能建筑中,建筑管理和控制操作(包括供暖、通风、空调、照明和安全)通过模拟建筑用户的需求并优化能源和时间等资源而自动实现。

6.2 分析和商业智能

分析是“广泛使用数据、统计和定量分析,解释和预测模型以及基于事实的管理来推动决策和行动。”它是商业智能的一个子集,是一组使用数据来理解和分析业务绩效的技术和过程。[23]

6.3 教育

数据可视化用户的分析活动

在教育领域,大多数教育工作者都可以使用数据系统来分析学生数据。[24]这些数据系统以非计数器数据格式(嵌入标签、补充文档和帮助系统,并做出密钥包/显示和内容决策)向教育者呈现数据,以提高教育者数据分析的准确性。[25]

7 从业者笔记编辑

这一部分包含了相当技术性的解释,可能对从业者有所帮助。

7.1 初始数据分析

初始数据分析阶段和主要分析阶段之间最重要的区别是,在初始数据分析期间,避免任何旨在回答原始研究问题的分析。初始数据分析阶段由以下四个问题指导:[26]

数据质量

应该尽早检查数据的质量。数据质量可以通过多种方式评估,使用不同类型的分析:频率计数、描述性统计(平均值、标准差、中位数)、正态性(偏度、峰度、频率直方图、n:变量与数据集外部变量的编码方案进行比较,如果编码方案不可比,则可能进行校正。

  • 通用方法方差测试。

在初始数据分析阶段评估数据质量的分析选择取决于将在主要分析阶段进行的分析。[27]

测量质量

当测量仪器的质量不是研究的重点或研究问题时,只能在初始数据分析阶段进行检查。应检查测量仪器的结构是否与文献中报告的结构一致。

评估测量有两种方法:[注:似乎只有一种方法被列出]

  • 均匀性分析(内部一致性),显示测量仪器的可靠性。在这个分析过程中,我们会检查项目和量表的差异,量表的 Cronbach's α,以及主要量表中删除项目时Cronbach's的变化。[28]

初始转换

在评估了数据和测量的质量之后,可以决定估算缺失的数据,或者对一个或多个变量进行初始转换,尽管这也可以在主分析阶段完成。[29]
变量的可能转换有:[30]

  • 平方根变换(如果分布与正态分布略有不同)
  • 对数转换(如果分布与正常值有很大差异)
  • 逆变换(如果分布与正态分布严重不同)
  • 使分类(有序/二分)(如果分布与正常分布严重不同,并且没有转换帮助)

研究的实施是否实现了研究设计的意图?

人们应该检查随机化程序的成功,例如通过检查背景和实质变量是否在组内和组间均匀分布。
如果研究不需要或不使用随机化程序,应检查非随机抽样的成功与否,例如通过检查样本中是否代表了感兴趣人群的所有子群。
应该检查的其他可能的数据失真包括:

  • 辍学(这应该在初始数据分析阶段确定)
  • 项目无响应(无论这是否是随机的,应在初始数据分析阶段进行评估)
  • 治疗质量(使用操作检查)。[31]

数据样本的特征

在任何报告或文章中,样品的结构都必须准确描述。当在主要分析阶段进行子组分析时,准确确定样品的结构(特别是子组的大小)尤为重要。
数据样本的特征可通过以下方式评估:

  • 重要变量的基本统计
  • 散点图
  • 相关性和关联性
  • 交叉列表[32]

初始数据分析的最后阶段

在最后阶段,记录初始数据分析的结果,并采取必要、优选和可能的纠正措施。
此外,主要数据分析的原始计划可以而且应该更详细地指定或重写。

为了做到这一点,可以并且应该做出关于主要数据分析的几个决定:

  • 在非正态的情况下:是否应该转换变量;使变量分类(序数/二分);调整分析方法?
  • 在缺失数据的情况下;是否应该忽略或归罪于缺失数据;应该使用哪种插补技术?
  • 在异常值的情况下:应该使用强大的分析技术吗?
  • 如果项目不符合标准:应通过省略项目来调整测量仪器,还是应确保与其他(使用)测量仪器的可比性?
  • 在(太)小的子群的情况下:应该放弃关于群间差异的假设,还是使用小样本技术,如精确测试或自举?
  • 如果随机化程序看起来有缺陷:我们可以也应该计算倾向分数,并将其作为协变量纳入主要分析吗?[33]

分析

在初始数据分析阶段可以使用几种分析:[34]

  • 单变量统计(单变量)
  • 二元关联(相关性)
  • 图形技术(散点图)

在分析中考虑变量的测量水平很重要,因为每个水平都有特殊的统计技术:[35]

  • 名义变量和序数变量
    • 频率计数(数字和百分比)
    • 联合
      • 迂回(交叉表)
      • 分层对数线性分析(限于最多8个变量)
      • 对数线性分析(识别相关/重要变量和可能的混淆因素)
    • 精确测试或引导(如果子组很小)
    • 新变量的计算
  • 连续变量
    • 分布
      • 统计学(方差、偏度、峰度、标准差)
      • 茎叶展示
      • 箱形图

非线性分析

当从非线性系统中记录数据时,非线性分析通常是必要的。非线性系统会表现出复杂的动态效应,包括分叉、混沌、谐波和次谐波,而这些都是用简单的线性方法无法分析的。非线性数据分析与非线性系统辨识密切相关。[36]

7.2 主要数据分析

在主要分析阶段,进行旨在回答研究问题的分析,以及撰写研究报告初稿所需的任何其他相关分析。[37]

探索性和验证性方法

在主要分析阶段,可以采用探索性或验证性方法。通常这种方法是在收集数据之前决定的。在探索性分析中,在分析数据之前没有明确的假设,并且在数据中搜索能够很好地描述数据的模型。在验证性分析中,测试了关于数据的明确假设。

探索性数据分析应该仔细解释。当同时测试多个模型时,很有可能发现其中至少有一个是重要的,但这可能是由于类型1错误。当用例如Bonferroni 校正测试多个模型时,务必调整显著性水平。此外,不应在同一数据集中用验证性分析来跟踪探索性分析。探索性分析是用来为一个理论寻找想法的,但也不是用来检验这个理论。当在数据集中发现模型是探索性的,那么在同一数据集中用验证性分析来跟踪该分析可能仅仅意味着验证性分析的结果是由最初导致探索性模型的相同类型1错误引起的。因此,验证性分析不会比最初的探索性分析提供更多信息。[38]

结果的稳定性

重要的是获得一些关于结果可推广性的指示。[39]虽然这通常很难检查,但可以查看结果的稳定性。结果可靠且可重现吗?有两种主要方法可以做到这一点。

  • 交叉验证。通过将数据分成多个部分,我们可以检查基于一部分数据的分析(如拟合模型)是否也能推广到另一部分数据。但是,如果数据中存在相关性,例如与面板数据的相关性,交叉验证通常是不合适的。因此,有时需要使用其他验证方法。
  • 灵敏度分析。当全局参数(系统地)变化时,研究系统或模型行为的过程。一种方法是通过自举法。

8 用于数据分析的免费软件编辑

值得注意的免费数据分析软件包括:

  • DevInfo——联合国发展集团认可的用于监测和分析人类发展的数据库系统。
  • ELKI—— Java中的数据挖掘框架,具有面向数据挖掘的可视化功能。
  • KNIME—— Konstanz Information Miner,一个用户友好和全面的数据分析框架。
  • Orange——一个可视化编程工具,以交互式数据可视化和统计数据分析、数据挖掘和机器学习方法为特色。
  • Pandas——用于数据分析的Python库
  • PAW——在欧洲核子研究中心开发的FORTRAN / C数据分析框架
  • R—— 统计计算和图形的编程语言和软件环境。
  • ROOT—— 欧洲核子研究组织开发的C与C++程序设计学习与实验系统数据分析框架
  • SciPy—— 用于数据分析的Python库

9 国际数据分析竞赛编辑

不同的公司或组织举行数据分析竞赛,鼓励研究人员利用他们的数据或通过数据分析解决特定的问题。以下是一些著名的国际数据分析竞赛的例子。

  • Kaggle举办的Kaggle竞赛[40]
  • 由FHWA和ASCE举办的LTPP数据分析竞赛。[41][42]

参考文献

  • [1]

    ^Xia, B. S., & Gong, P. (2015). Review of business intelligence through data analysis. Benchmarking, 21(2), 300-311. doi:10.1108/BIJ-08-2012-0050.

  • [2]

    ^Exploring Data Analysis.

  • [3]

    ^Judd, Charles and, McCleland, Gary (1989). Data Analysis. Harcourt Brace Jovanovich. ISBN 0-15-516765-0..

  • [4]

    ^John Tukey-The Future of Data Analysis-July 1961.

  • [5]

    ^Schutt, Rachel; O'Neil, Cathy (2013). Doing Data Science. O'Reilly Media. ISBN 978-1-449-35865-5..

  • [6]

    ^Clean Data in CRM: The Key to Generate Sales-Ready Leads and Boost Your Revenue Pool Retrieved 29th July, 2016.

  • [7]

    ^"Data Cleaning". Microsoft Research. Retrieved 26 October 2013..

  • [8]

    ^Perceptual Edge-Jonathan Koomey-Best practices for understanding quantitative data-February 14, 2006.

  • [9]

    ^Hellerstein, Joseph (27 February 2008). "Quantitative Data Cleaning for Large Databases" (PDF). EECS Computer Science Division: 3. Retrieved 26 October 2013..

  • [10]

    ^Stephen Few-Perceptual Edge-Selecting the Right Graph For Your Message-September 2004.

  • [11]

    ^Behrens-Principles and Procedures of Exploratory Data Analysis-American Psychological Association-1997.

  • [12]

    ^Grandjean, Martin (2014). "La connaissance est un réseau" (PDF). Les Cahiers du Numérique. 10 (3): 37–54. doi:10.3166/lcn.10.3.37-54..

  • [13]

    ^Stephen Few-Perceptual Edge-Selecting the Right Graph for Your Message-2004.

  • [14]

    ^Stephen Few-Perceptual Edge-Graph Selection Matrix.

  • [15]

    ^Robert Amar, James Eagan, and John Stasko (2005) "Low-Level Components of Analytic Activity in Information Visualization".

  • [16]

    ^William Newman (1994) "A Preliminary Analysis of the Products of HCI Research, Using Pro Forma Abstracts".

  • [17]

    ^Mary Shaw (2002) "What Makes Good Research in Software Engineering?".

  • [18]

    ^"ConTaaS: An Approach to Internet-Scale Contextualisation for Developing Efficient Internet of Things Applications". ScholarSpace. HICSS50. Retrieved May 24, 2017..

  • [19]

    ^"Congressional Budget Office-The Budget and Economic Outlook-August 2010-Table 1.7 on Page 24" (PDF). Retrieved 2011-03-31..

  • [20]

    ^"Introduction". cia.gov..

  • [21]

    ^Bloomberg-Barry Ritholz-Bad Math that Passes for Insight-October 28, 2014.

  • [22]

    ^González-Vidal, Aurora; Moreno-Cano, Victoria (2016). "Towards energy efficiency smart buildings models based on intelligent data analytics". Procedia Computer Science. 83 (Elsevier): 994–999. doi:10.1016/j.procs.2016.04.213..

  • [23]

    ^Davenport, Thomas and, Harris, Jeanne (2007). Competing on Analytics. O'Reilly. ISBN 978-1-4221-0332-6..

  • [24]

    ^Aarons, D. (2009). Report finds states on course to build pupil-data systems. Education Week, 29(13), 6..

  • [25]

    ^Rankin, J. (2013, March 28). How data Systems & reports can either fight or propagate the data analysis error epidemic, and how educator leaders can help. Presentation conducted from Technology Information Center for Administrative Leadership (TICAL) School Leadership Summit..

  • [26]

    ^Adèr 2008a, p. 337..

  • [27]

    ^Adèr 2008a, pp. 338-341..

  • [28]

    ^Adèr 2008a, pp. 341-342..

  • [29]

    ^Adèr 2008a, p. 344..

  • [30]

    ^Tabachnick & Fidell, 2007, p. 87-88..

  • [31]

    ^Adèr 2008a, pp. 344-345..

  • [32]

    ^Adèr 2008a, p. 345..

  • [33]

    ^Adèr 2008a, pp. 345-346..

  • [34]

    ^Adèr 2008a, pp. 346-347..

  • [35]

    ^Adèr 2008a, pp. 349-353..

  • [36]

    ^Billings S.A. "Nonlinear System Identification: NARMAX Methods in the Time, Frequency, and Spatio-Temporal Domains". Wiley, 2013.

  • [37]

    ^Adèr 2008b, p. 363..

  • [38]

    ^Adèr 2008b, pp. 361-362..

  • [39]

    ^Adèr 2008b, pp. 361-371..

  • [40]

    ^"The machine learning community takes on the Higgs". Symmetry Magazine. July 15, 2014. Retrieved 14 January 2015..

  • [41]

    ^Nehme, Jean (September 29, 2016). "LTPP International Data Analysis Contest". Federal Highway Administration. Retrieved October 22, 2017..

  • [42]

    ^"Data.Gov:Long-Term Pavement Performance (LTPP)". May 26, 2016. Retrieved November 10, 2017..

阅读 2.3w
版本记录
  • 暂无