The Wayback Machine - https://web.archive.org/web/20221028215137/https://baike.sogou.com/kexue/d11224.htm

数据集

编辑

数据集是一组数据的集合。在表格式的数据表中,一个数据集也就是一个或者多个数据库表格,这个表格中的列代表了特殊的变量,行与列对应。特定的数据集将每一个变量的值都列出来,像是对象的高度或者重量。每一个值都成为一个数据。数据集可以由一系列的文件组成。在开放数据的规定中,数据集是计量被放在公开数据库中信息量的单位。欧洲开放数据门户网站拥有超过50万的数据集。在这个领域,有一些其他的定义也被提出来,但是还没有一个官方的定义。有其他的一些干扰因素像是实时信息,非关系型数据集等会增加达成共识的难度。

1 数据集的属性编辑

几个特点确定了数据集合的属性和结构,包括:变量的数量类型,不同的统计标准像是标准差和峰度。值在数据集中可以是实数,也可以是整数,像是人的身高可以用厘米衡量。也有可能值是一个标定数据,像是人的种族。更广义的说,值可以是任何一种测量标准。对于任意变量,值都是同一个概念。但是,也会有缺失值,这种情况就要说明了。

统计学中,数据集通常来自于观察抽样调查的数据整体,然后每一行都对应每一个数据样本的观察结果。数据集可以由算法生成,去测试某种软件。有一些现代化的统计分析像是SPSS仍然将他们的数据以数据集呈现。如果数据缺失或者有问题的话,可以用估算把空缺值填补上。

2 经典的数据集编辑

有几个经典的数据集被广泛的应用在统计学文献里:

  • 鸢尾属植物数据集(Iris flower data set)-由Ronald Fisher引入的多元数据集。
  • MNIST数据库-手写体数字的图片,通常被用来测试分类、聚类分析和图像处理算法。
  • 分类数据分析-分类数据分析入门这本书里书里用到的数据库

[1][2][3][4][5]

  1. "Big Data': Big gaps of knowledge in the field of Internet".
  2. "European open data portal. European Commission. Retrieved 2016-09-23".
  3. "Dataset definition – MELODA".
  4. "The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF).
  5. Jan, Jan; Jan M., Żytkow (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1.

参考文献

  • [1]

    ^"Big Data': Big gaps of knowledge in the field of Internet"..

  • [2]

    ^"European open data portal. European Commission. Retrieved 2016-09-23"..

  • [3]

    ^"Dataset definition – MELODA"..

  • [4]

    ^"The tau of data: A new metric to assess the timeliness of data in catalogues" (PDF)..

  • [5]

    ^Jan, Jan; Jan M., Żytkow (1999). Principles of data mining and knowledge discovery. ISBN 978-3-540-66490-1..

阅读 2337
版本记录
  • 暂无