分类

                     

贡献者: xzllxls

预备知识 数据

   分类(Classfication)是一种把实例或者对象划归到特定的类别中的操作。在机器学习中,分类指的是从给定特征来预测离散型输出值的学习任务。预测输出值就称为类别。与之对应的,预测连续型变量的操作是回归

   机器学习中的分类是通过建立一个从输入空间 $ \boldsymbol{\mathbf{X}} $ 到输出空间 $ \boldsymbol{\mathbf{Y}} $(有限个离散值的集合)的映射来实现的。该映射被称为分类模型或者分类器(Classifier)。学习算法的任务就是从训练数据中学习相应的规律,从而建立分类器。该学习过程就是分类器的训练过程。常用的分类器有很多,比如决策树、逻辑回归、支持向量机、神经网络等。

   最常见的分类任务是二分类(Binary classification),即类别只有两类的分类任务。通常,称两类中的一类为正类(Positive class),另一类为反类或负类(Negative class)。显然,此时,输出空间 $ \boldsymbol{\mathbf{Y}} $ 中元素的个数为 $2$,可以表示为 $Y=\{+1, -1\}$ 或者 $Y=\{0, 1\}$。也有不少文献使用 “$+$” 表示正例,"$-$"表示反例。如果,一个分类任务的待预测类别数是三个或者三个以上的话,就称为多分类(Muti-class classification)任务[1]。

表1:睡眠数据集
编号 性别 年龄 职业 睡眠时间(小时) BMI 指数 心率 舒张压 收缩压 每日走路步数 睡眠障碍
1 27 软件工程师 6.1 超重 77 83 126 4200
2 28 医生 6.2 正常 75 80 125 10000
3 30 护士 6.4 正常 78 86 130 4100 睡眠暂停
4 29 教师 6.3 肥胖 82 90 140 3500 失眠

   比如,在表 1 所示的睡眠数据集上。如果想要通过睡眠时间、BMI 指数、心率、舒张压、收缩压这几个特征来预测人的睡眠障碍情况,那就是一个典型的分类问题。要预测的量是表格最后一列所示的 “睡眠障碍”,该特征有三个可能的取值,分别为:“无”、“睡眠暂停” 和 “失眠”。因此,这是一个三分类问题。输出空间可以表示为:$Y=\{\text{无}, \text{睡眠暂停}, \text{失眠}\}$。

   在实际应用中,往往不须要很精细地预测每一个类别,此时可以将问题简化,把多分类问题简化为一个二分类问题。比如,可以把 “睡眠暂停” 和 “失眠” 都归为 “有”。那么那个三分类问题就退化为了一个二分类问题。此时,输出空间可以表示为:$Y=\{\text{无}, \text{有}\}$。

   参考文献:

  1. 周志华. 机器学习[M]. 北京:清华大学出版社. 2016: 3

                     

© 小时科技 保留一切权利