贡献者: xzllxls
回归(Regression),在统计学中,是一种用于估计自变量(机器学习中称特征、属性)和因变量(机器学习中称标签)之间相关关系的分析方法[1]。回归分析的过程是确定最能够代表数据趋势的直线或者曲线[2]。所求得的回归直线或曲线,又可以称为拟合直线或拟合曲线。
回归也是一种机器学习中的基本建模方法。当所需要预测的数据是连续型数值时,该学习任务就是回归任务,须要用到回归方法,所求得的模型可以称为回归模型。这点是回归与分类的主要区别。分类模型所预测的值是离散型数据。
值得注意的是,回归模型所输出的数据是连续性数值,但其输入数据可以是离散型数据。在实际的回归分析过程中,可以对离散型的特征(因变量)做连续化处理。
回归分析步骤
编号 | 性别 | 年龄 | 职业 | 睡眠时间(小时) | BMI 指数 | 心率 | 舒张压 | 收缩压 | 每日走路步数 | 睡眠障碍 |
1 | 男 | 27 | 软件工程师 | 6.1 | 超重 | 77 | 83 | 126 | 4200 | 无 |
2 | 男 | 28 | 医生 | 6.2 | 正常 | 75 | 80 | 125 | 10000 | 无 |
3 | 女 | 30 | 护士 | 6.4 | 正常 | 78 | 86 | 130 | 4100 | 睡眠暂停 |
4 | 男 | 29 | 教师 | 6.3 | 肥胖 | 82 | 90 | 140 | 3500 | 失眠 |
我们来举一个例子。表 1 所示的是一个简单的睡眠数据集。例如,我们想通过人的年龄、睡眠时间、每日步数来预测心率。那么,该任务是一个简单的回归任务。因为,待预测的标签数据是心率,其数据类型是连续性。因此,该任务显然是一个回归任务,须要建模回归模型。
下面用数学形式来表示该回归任务。输入空间可以表示为:$ \boldsymbol{\mathbf{X}} =\{\text{年龄},\text{睡眠时间},\text{每日步数}\}$。输出空间表示为:$ \boldsymbol{\mathbf{Y}} =\{\text{心率}\}$。回归模型是:$f: \boldsymbol{\mathbf{X}} \rightarrow \boldsymbol{\mathbf{Y}} $。
回归模型可以有多种选择。线性模型是最常用,也是最基本的回归模型。如果特征(自变量)和标签(因变量)之间存在明显的线性相关关系,则可以采用线性模型来建模。采用线性模型的回归称为线性回归。如果数据之间的相关关系较为复杂,可以采用非线性回归,或者高阶回归。
https://en.wikipedia.org/wiki/Regression_analysis
https://www.britannica.com/topic/regression-statistics