回归

                     

贡献者: xzllxls

   回归(Regression),在统计学中,是一种用于估计自变量(机器学习中称特征、属性)和因变量(机器学习中称标签)之间相关关系的分析方法[1]。回归分析的过程是确定最能够代表数据趋势的直线或者曲线[2]。所求得的回归直线或曲线,又可以称为拟合直线或拟合曲线。

   回归也是一种机器学习中的基本建模方法。当所需要预测的数据是连续型数值时,该学习任务就是回归任务,须要用到回归方法,所求得的模型可以称为回归模型。这点是回归与分类的主要区别。分类模型所预测的值是离散型数据。

   值得注意的是,回归模型所输出的数据是连续性数值,但其输入数据可以是离散型数据。在实际的回归分析过程中,可以对离散型的特征(因变量)做连续化处理。

   回归分析步骤

  1. 数据收集:收集包含自变量和因变量的数据集。
  2. 建模:选择适当的回归模型,例如线性回归、多元回归或非线性回归。
  3. 拟合模型:使用统计方法或机器学习算法拟合模型,找到最佳的参数值,使模型最好地适应数据。拟合过程通常涉及到最小化损失函数,例如最小二乘法,以找到最优的模型参数。
  4. 评估模型:使用各种评估指标(如均方误差、决定系数等)来评估模型的性能。
  5. 预测:应用建立的模型进行未来观测值的预测。
表1:睡眠数据集
编号 性别 年龄 职业 睡眠时间(小时) BMI 指数 心率 舒张压 收缩压 每日走路步数 睡眠障碍
1 27 软件工程师 6.1 超重 77 83 126 4200
2 28 医生 6.2 正常 75 80 125 10000
3 30 护士 6.4 正常 78 86 130 4100 睡眠暂停
4 29 教师 6.3 肥胖 82 90 140 3500 失眠

   我们来举一个例子。表 1 所示的是一个简单的睡眠数据集。例如,我们想通过人的年龄、睡眠时间、每日步数来预测心率。那么,该任务是一个简单的回归任务。因为,待预测的标签数据是心率,其数据类型是连续性。因此,该任务显然是一个回归任务,须要建模回归模型。

   下面用数学形式来表示该回归任务。输入空间可以表示为:$ \boldsymbol{\mathbf{X}} =\{\text{年龄},\text{睡眠时间},\text{每日步数}\}$。输出空间表示为:$ \boldsymbol{\mathbf{Y}} =\{\text{心率}\}$。回归模型是:$f: \boldsymbol{\mathbf{X}} \rightarrow \boldsymbol{\mathbf{Y}} $。

   回归模型可以有多种选择。线性模型是最常用,也是最基本的回归模型。如果特征(自变量)和标签(因变量)之间存在明显的线性相关关系,则可以采用线性模型来建模。采用线性模型的回归称为线性回归。如果数据之间的相关关系较为复杂,可以采用非线性回归,或者高阶回归。

参考文献:

  1. https://en.wikipedia.org/wiki/Regression_analysis
  2. https://www.britannica.com/topic/regression-statistics

                     

© 小时科技 保留一切权利