回归

贡献者： xzllxls

　　回归（Regression），在统计学中，是一种用于估计自变量（机器学习中称特征、属性）和因变量（机器学习中称标签）之间相关关系的分析方法[1]。回归分析的过程是确定最能够代表数据趋势的直线或者曲线[2]。所求得的回归直线或曲线，又可以称为拟合直线或拟合曲线。

　　回归也是一种机器学习中的基本建模方法。当所需要预测的数据是连续型数值时，该学习任务就是回归任务，须要用到回归方法，所求得的模型可以称为回归模型。这点是回归与分类的主要区别。分类模型所预测的值是离散型数据。

　　值得注意的是，回归模型所输出的数据是连续性数值，但其输入数据可以是离散型数据。在实际的回归分析过程中，可以对离散型的特征（因变量）做连续化处理。

　　 回归分析步骤

数据收集：收集包含自变量和因变量的数据集。
建模：选择适当的回归模型，例如线性回归、多元回归或非线性回归。
拟合模型：使用统计方法或机器学习算法拟合模型，找到最佳的参数值，使模型最好地适应数据。拟合过程通常涉及到最小化损失函数，例如最小二乘法，以找到最优的模型参数。
评估模型：使用各种评估指标（如均方误差、决定系数等）来评估模型的性能。
预测：应用建立的模型进行未来观测值的预测。

表1：睡眠数据集

编号	性别	年龄	职业	睡眠时间（小时）	BMI 指数	心率	舒张压	收缩压	每日走路步数	睡眠障碍
1	男	27	软件工程师	6.1	超重	77	83	126	4200	无
2	男	28	医生	6.2	正常	75	80	125	10000	无
3	女	30	护士	6.4	正常	78	86	130	4100	睡眠暂停
4	男	29	教师	6.3	肥胖	82	90	140	3500	失眠

　　我们来举一个例子。表 1 所示的是一个简单的睡眠数据集。例如，我们想通过人的年龄、睡眠时间、每日步数来预测心率。那么，该任务是一个简单的回归任务。因为，待预测的标签数据是心率，其数据类型是连续性。因此，该任务显然是一个回归任务，须要建模回归模型。

　　下面用数学形式来表示该回归任务。输入空间可以表示为：$ \boldsymbol{\mathbf{X}} =\{\text{年龄},\text{睡眠时间},\text{每日步数}\}$。输出空间表示为：$ \boldsymbol{\mathbf{Y}} =\{\text{心率}\}$。回归模型是：$f: \boldsymbol{\mathbf{X}} \rightarrow \boldsymbol{\mathbf{Y}} $。

　　回归模型可以有多种选择。线性模型是最常用，也是最基本的回归模型。如果特征（自变量）和标签（因变量）之间存在明显的线性相关关系，则可以采用线性模型来建模。采用线性模型的回归称为线性回归。如果数据之间的相关关系较为复杂，可以采用非线性回归，或者高阶回归。

参考文献：

https://en.wikipedia.org/wiki/Regression_analysis
https://www.britannica.com/topic/regression-statistics

致读者：小时百科一直以来坚持所有内容免费无广告，这导致我们处于严重的亏损状态。长此以往很可能会最终导致我们不得不选择大量广告以及内容付费等。因此，我们请求广大读者热心打赏 ，使网站得以健康发展。如果看到这条信息的每位读者能慷慨打赏 20 元，我们一周就能脱离亏损，并在接下来的一年里向所有读者继续免费提供优质内容。但遗憾的是只有不到 1% 的读者愿意捐款，他们的付出帮助了 99% 的读者免费获取知识，我们在此表示感谢。