数据集是一组数据的集合。在表格式的数据表中,一个数据集也就是一个或者多个数据库表格,这个表格中的列代表了特殊的变量,行与列对应。特定的数据集将每一个变量的值都列出来,像是对象的高度或者重量。每一个值都成为一个数据。数据集可以由一系列的文件组成。在开放数据的规定中,数据集是计量被放在公开数据库中信息量的单位。欧洲开放数据门户网站拥有超过50万的数据集。在这个领域,有一些其他的定义也被提出来,但是还没有一个官方的定义。有其他的一些干扰因素像是实时信息,非关系型数据集等会增加达成共识的难度。
几个特点确定了数据集合的属性和结构,包括:变量的数量类型,不同的统计标准像是标准差和峰度。值在数据集中可以是实数,也可以是整数,像是人的身高可以用厘米衡量。也有可能值是一个标定数据,像是人的种族。更广义的说,值可以是任何一种测量标准。对于任意变量,值都是同一个概念。但是,也会有缺失值,这种情况就要说明了。
统计学中,数据集通常来自于观察抽样调查的数据整体,然后每一行都对应每一个数据样本的观察结果。数据集可以由算法生成,去测试某种软件。有一些现代化的统计分析像是SPSS仍然将他们的数据以数据集呈现。如果数据缺失或者有问题的话,可以用估算把空缺值填补上。
有几个经典的数据集被广泛的应用在统计学文献里:
^"Big Data': Big gaps of knowledge in the field of Internet"..
^"European open data portal. European Commission. Retrieved 2016-09-23"..
^"Dataset definition – MELODA"..
^"The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF)..
^Jan, Jan; Jan M., Żytkow (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1..
暂无