回归分析

编辑

在统计建模中，回归分析是一组用于估计变量之间关系的统计过程。当焦点是一个因变量和一个或多个自变量(或“预测因子”)之间的关系时，它包括许多用于建模和分析多个变量的技术。更具体地说，回归分析有助于理解因变量的典型值 (或“标准变量”)在任何一个独立变量变化时发生变化，而其他独立变量保持不变。

最常见的是，回归分析在给定自变量的情况下估计因变量的条件期望——即当自变量固定时因变量的平均值。不太常见的是，焦点集中在因变量的分位数，或给定自变量的因变量的其他位置参数上。在所有情况下，都要估计独立变量的函数，称为回归函数。在回归分析中，利用概率分布来描述回归函数预测周围因变量的变化也是很有意义的。一个相关但不同的方法是必要条件分析^[1] (NCA)，它估计自变量给定值(上限线而不是中心线)的因变量的最大值(而不是平均值)，以便识别自变量的值是必要的，但对于给定变量的给定值是不够的。

回归分析被广泛用于预测和预报，其使用与机器学习领域有很大的重叠。回归分析也用于理解哪些自变量与因变量相关，并探索这些关系的形式。在有限的情况下，回归分析可以用来推断自变量和因变量之间的因果关系。然而，这可能导致幻想或错误的关系，所以谨慎是明智的。

已经开发了许多用于执行回归分析的技术。常见的方法如线性回归和普通最小二乘回归都是参数化的，因为回归函数是根据从数据中估计出的有限数量的未知参数来定义的。非参数回归是指允许回归函数位于一组特定函数中的技术，这些函数可以是无限维的。

回归分析方法在实践中的性能取决于数据生成过程的形式，以及它与所使用的回归方法的关系。由于数据生成过程的原码通常是未知的，回归分析通常在一定程度上取决于对该过程的假设。如果有足够数量的数据，这些假设有时是可测试的。即使假设被适度违反，用于预测的回归模型通常也是有用的，尽管它们可能无法以最佳方式执行。然而，在许多应用中，特别是基于观测数据的小影响或因果关系问题，回归方法可能给出误导性的结果。^[2]^[3]

从狭义上讲，回归可以特指连续响应(因变量)的估计，而不是分类中使用的离散响应变量。^[4] 连续因变量的情况可以更具体地称为 度量回归 以区别于相关的问题。^[5]

目录编辑

1 历史编辑

回归的最早形式是最小二乘法，由勒让德于1805年^[6]和高斯在1809年先后发表。^[7] 勒让德和高斯都将这种方法应用于从天文观测中确定天体围绕太阳的轨道(主要是彗星，但也包括后来新发现的小行星)的问题。高斯在1821年发表了关于最小二乘理论的进一步发展，^[8] 包括一个版本的高斯－马尔可夫定理。

“回归”一词是19世纪由弗朗西斯·高尔顿创造的，用来描述一种生物现象。这种现象是高给子祖先后代的身高倾向于向正常平均值回归(这种现象也被称为向平均值回归)。^[9]^[10]对高尔顿来说，回归只有这种生物学意义，^[11]^[12] 但是他的工作后来被尤尼·尤尔和卡尔·皮尔逊扩展到更一般的统计范畴。^[13]^[14] 在尤勒和皮尔逊的研究中，假设响应和解释变量的联合分布是高斯分布。这一假设被R.A .费希尔在1922年和1925年的作品中削弱了。^[15]^[16]^[17] 费希尔假设响应变量的条件分布为高斯分布，但联合分布不必如此。在这方面，费希尔的假设更接近高斯1821年的公式。

在20世纪50年代和60年代，经济学家使用机电台式“计算器”来计算回归。在1970年之前，有时需要24小时才能收到一次回归的结果。^[18]

回归方法仍然是一个活跃的研究领域。近几十年来，已经开发了稳健回归的新方法，涉及相关响应（如时间序列和增长曲线）的回归、预测因子（自变量）或响应变量为曲线、图像、图表或其他复杂数据对象的回归。回归方法适应各种类型的缺失数据，非参数回归，贝叶斯回归方法，回归中预测变量用误差测量，回归中预测变量比观测值多，回归因果推断。

2 回归模型编辑

回归模型包括以下参数和变量:

未知参数，表示为，它可以表示标量或向量。
自变量，。
因变量，。

在不同的应用领域中，使用不同的术语来代替因变量和自变量。

回归模型将与和的函数关联起来。

近似通常形式化为。进行回归分析，函数的形式必须具体指定。有时这个函数的形式是基于和之间的关系的了解，而不依赖数据。如果没有这样的了解，一个灵活或方便的形式被选中。

现在假设未知参数的向量的长度是。为了执行回归分析，用户必须提供关于因变量的信息 :

如果表单的数据点被观察到，当，大多数经典的回归分析方法都无法进行:由于定义回归模型的方程组是不充分的，所以没有足够的数据来恢复。
如果确实当观察数据点，函数是线性的，等式可以精确而不是近似地被求解出来。这简化为解决一组等式有未知数，它有一个独特的解决方案，只要是线性独立。如果是非线性的，可能不存在解，或者可能存在许多解。
最常见的情况是当观察数据点。在这种情况下，数据中有足够的信息来估计在某种意义上最适合数据的唯一值，当回归模型应用于数据时，可以将其视为中的一个超定系统。

在最后一种情况下，回归分析提供了以下工具:

寻找未知参数的解决方案，使因变量的测量值和预测值之间的距离最小化(也称为最小二乘法)。
在某些统计假设下，回归分析使用剩余信息来提供未知参数的统计信息和因变量的预测值。

2.1 独立测量的必要数量

考虑一个具有三个未知参数的回归模型， , ，和。假设一个实验者在完全相同的自变量向量值下进行了10次测量 (其中包含自变量 , ，和 )中。在这种情况下，回归分析无法给出三个未知参数的唯一估计值集；实验者没有提供足够的信息。最好的办法是估计因变量的平均值和标准差。同样，在两个不同的值下测量会给出足够的数据进行两个未知数的回归，但不会给出三个或更多个未知数的回归。

如果实验者已经在自变量向量的三个不同值上进行了测量，那么回归分析将为三个未知参数提供一组独特的估计。

在一般线性回归的情况下，上述陈述等价于要求矩阵是可逆的。

当测量的次数大于未知参数的数量时，以及测量误差正态分布信息过剩 包含在测量用于对未知参数进行统计预测。这种过量的信息被称为回归的自由度。

3 基本假设编辑

回归分析的经典假设包括:

样本代表了推理预测的总体。
误差是一个随机变量，在解释变量的条件下均值为零。
自变量测量没有误差。(注意:如果不是这样，建模可以使用变量误差建模技术来代替)。
自变量(预测因子)是线性独立，即不可能将任何预测因子表达为其他变量的线性组合。
误差是不相关的，即误差的方差-协方差矩阵是对角的，每个非零元素是误差的方差。
误差的方差在观察值之间是恒定的(同方差性)。否则，可以使用加权最小二乘法或其他方法。

这些是最小二乘估计器具有期望性质的充分条件；特别地，这些假设意味着参数估计在线性无偏估计类中是无偏的、一致的和有效的。需要注意的是，实际数据很少满足假设。也就是说，即使假设不正确，也要使用该方法。假设的变化有时可以用来衡量模型离有用还有多远。在更先进的治疗中，这些假设中的许多可能会被放宽。统计分析报告通常包括对样本数据的测试分析以及模型的适用性和有用性的方法。

自变量和因变量通常指在点位置测量的值。变量中可能存在违反回归统计假设的空间趋势和空间自相关。地理加权回归是处理这种数据的一种技术。^[19] 此外，变量可以包括按区域汇总的值。对于汇总数据，可修改的面积单位问题会导致回归参数的极端变化。^[20] 当分析按政治边界汇总的数据时，邮政编码或人口普查地区的结果可能会因不同的单位选择而非常不同。

4 线性回归编辑

在线性回归中，模型规范是因变量参数的线性组合 (但不必是线性的自变量)。例如，在用于建模的简单线性回归中数据点有一个自变量和两个参数和 :

直线:

在多元线性回归中，有几个自变量或自变量的函数。

将中的一个项添加到前面的回归中可以得出：

抛物线:

这仍然是线性回归；虽然右边的表达式在自变量中是二次的，它在参数中是线性的 , 和

在这两种情况下，是一个错误项和下标索引特定的观察。

让我们回到直线的情形:给定一个来自总体的随机样本，我们估计总体参数并获得样本线性回归模型:

残差是模型预测的因变量的值和因变量的真实值之间的差值。一种估计方法是普通最小二乘法。该方法获得最小化残差平方和的参数估计，SSR:

该函数的最小化产生一组正规方程，一组参数中的联立线性方程，这些方程被求解以产生参数估计量。

数据集上线性回归的图示。

在简单回归的情况下，最小二乘估计的公式为

其中是的平均值，是的平均值。

假设总体误差项具有恒定方差，方差的估计为:

这被称为回归的均方误差。分母是样本大小减去从相同数据估计的模型参数的数量，如果使用截距，为回归者或。^[21] 在这种情况下，所以分母是。

参数估计的标准误差由下式给出

。

在总体误差项正态分布的进一步假设下，研究人员可以使用这些估计的标准误差来创建置信区间，并对总体参数进行假设检验。

4.1 一般线性模型

在更一般的多元回归模型中，有个自变量:

其中为第个自变量的第个观测值。如果第一个独立变量的值为1 , ，那么叫做回归截距。

最小二乘参数估计是从正规方程在获得。残差可以写为

正规方程是

在矩阵表示法中，正规方程写成

其中位置的元素即，列向量的元素即，元素即。因此存在 , 存在，存在。解是

4.2 诊断学

一旦建立了回归模型，确认模型的拟合优度和估计参数的统计意义可能很重要。常用的拟合优度检查包括R平方、残差模式分析和假设检验。统计显著性可以通过整体拟合的F检验检验，随后是单个参数的t检验。

对这些诊断测试的解释主要依赖于模型假设。虽然残差检验可以用来使模型失效，但是如果模型的假设被违反，t检验或F检验检验的结果有时更难解释。例如，如果误差项不具有正态分布，在小样本中，估计的参数将不会遵循正态分布并且使推断复杂化。然而，对于相对较大的样本，可以调用中心极限定理，使得假设检验可以使用渐近近似进行。

4.3 有限因变量

有限因变量，即作为分类变量的响应变量，或者是仅限于一定范围内的变量，通常出现在计量经济学中。

响应变量可以是非连续的(“受限于”位于实数线的某个子集)。对于二元(0或1)变量，如果分析进行最小二乘线性回归，该模型称为线性概率模型。二元因变量的非线性模型包括probit和logit模型。多元probit模型是估计几个二元因变量和一些自变量之间联合关系的标准方法。对于具有两个以上值的分类变量，有多项式逻辑。对于超过两个值的序数变量，有有序logit和有序probit模型。当因变量只是有时被观察到时，可以使用审查回归模型，而当样本不是从感兴趣的总体中随机选择时，可以使用赫克曼校正类型模型。这种方法的一种替代方法是基于分类变量之间的多水平相关性(或多序列相关性)的线性回归。这些程序在关于变量在人群中分布的假设上有所不同。如果变量为正值且值较低，表示事件重复发生，则可以使用计数模型，如泊松回归或负二项模型。

5 非线性回归编辑

当模型函数在参数中不是线性时，平方和必须通过迭代过程最小化。这引入了许多的问题，归纳起来就是线性和非线性最小二乘法之间的差异。

6 插值和外推编辑

在中间，插值直线表示该线上方和下方点之间的最佳平衡。虚线表示两条极端线。第一条曲线代表估计值。外部曲线表示新测量的预测。[1]

回归模型预测给定X变量的已知值的Y变量的值。用于模型拟合的数据集中的值的范围被非正式地称为插值。在这个数据范围之外的预测被称为外推。进行外推很大程度上依赖于回归假设。由于假设与样本数据或真实值之间的差异，外推进一步超出数据，模型失败的空间就越大。

一般建议在进行外推时，应在因变量的估计值旁边加上一个代表不确定性的预测区间。随着自变量的值移出观测数据覆盖的范围，这种间隔往往会迅速扩大。

出于这样或那样的原因，一些人倾向于说进行推断可能是不明智的。^[23]

然而，这并没有涵盖所有可能出现的建模错误:特别是Y 和 X之间关系的特定形式的假设。正确进行的回归分析将包括评估观测数据与假定形式的匹配程度，但只能在实际可用的自变量值的范围内进行。这意味着任何外推都特别依赖于对回归关系的结构形式所做的假设。最佳实践建议不应该仅仅为了计算方便而选择线性变量和线性参数关系，而是应该在构建回归模型时使用所有可用的知识。如果这种知识包括因变量不能超出某个值范围的事实，这可以用于选择模型——即使观察到的数据集没有特别接近该范围的值。当考虑外推时，为回归选择合适的函数形式这一步骤的含义可能很大。至少，它可以确保由拟合模型产生的任何外推都是“现实的”(或符合已知的)。

7 功率和样本大小计算编辑

对于模型中观察值与自变量之间的关系，目前还没有普遍认可的方法。古德和哈丁推测的一个经验法则是，其中是样本大小，是自变量的数量，是达到预期精度所需的观测次数，假设模型只有一个独立变量。^[24] 例如，一名研究人员正在使用包含1000名患者的数据集建立线性回归模型中。如果研究人员决定需要五次观察来精确定义直线( )，那么模型可以支持的独立变量的最大数量是4，因为

。

8 其他方法编辑

虽然回归模型的参数通常使用最小二乘法估计，但其他已使用的方法包括:

贝叶斯方法，例如贝叶斯线性回归
百分比回归，用于减少百分率 错误被认为更合适。^[25]
最小绝对偏差，在异常值存在时更稳健，导致分位数回归
非参数回归需要大量的观测，并且计算量大
距离度量学习，通过在给定的输入空间中搜索有意义的距离度量来学习。^[26]

9 软件编辑

所有主要的统计软件包都执行最小二乘回归分析和推断。使用最小二乘法的一元线性回归法和多元回归可以在一些电子表格应用程序和计算器上完成。虽然许多统计软件包可以执行各种类型的非参数和稳健回归，但这些方法不太标准化；不同的软件包实现不同的方法，并且具有给定名称的方法可以在不同的软件包中不同地实现。已经开发了专门的回归软件，用于调查分析和神经成像等领域。

参考文献

[1]
^Necessary Condition Analysis.
[2]
^David A. Freedman, Statistical Models: Theory and Practice, Cambridge University Press (2005).
[3]
^R. Dennis Cook; Sanford Weisberg Criticism and Influence Analysis in Regression, Sociological Methodology, Vol. 13. (1982), pp. 313–361.
[4]
^Christopher M. Bishop (2006). Pattern Recognition and Machine Learning. Springer. p. 3. Cases [...] in which the aim is to assign each input vector to one of a finite number of discrete categories, are called classification problems. If the desired output consists of one or more continuous dependent variables, then the task is called regression..
[5]
^Waegeman, Willem; De Baets, Bernard; Boullart, Luc (2008). "ROC analysis in ordinal regression learning". Pattern Recognition Letters. 29: 1–9. doi:10.1016/j.patrec.2007.07.019..
[6]
^A.M. Legendre. Nouvelles méthodes pour la détermination des orbites des comètes, Firmin Didot, Paris, 1805. “Sur la Méthode des moindres quarrés” appears as an appendix..
[7]
^C.F. Gauss. Theoria Motus Corporum Coelestium in Sectionibus Conicis Solem Ambientum. (1809).
[8]
^C.F. Gauss. Theoria combinationis observationum erroribus minimis obnoxiae. (1821/1823).
[9]
^Mogull, Robert G. (2004). Second-Semester Applied Statistics. Kendall/Hunt Publishing Company. p. 59. ISBN 978-0-7575-1181-3..
[10]
^Galton, Francis (1989). "Kinship and Correlation (reprinted 1989)". Statistical Science. 4 (2): 80–86. doi:10.1214/ss/1177012581. JSTOR 2245330..
[11]
^Francis Galton. "Typical laws of heredity", Nature 15 (1877), 492–495, 512–514, 532–533. (Galton uses the term "reversion" in this paper, which discusses the size of peas.).
[12]
^Francis Galton. Presidential address, Section H, Anthropology. (1885) (Galton uses the term "regression" in this paper, which discusses the height of humans.).
[13]
^Yule, G. Udny (1897). "On the Theory of Correlation". Journal of the Royal Statistical Society. 60 (4): 812–54. doi:10.2307/2979746. JSTOR 2979746..
[14]
^Pearson, Karl; Yule, G.U.; Blanchard, Norman; Lee,Alice (1903). "The Law of Ancestral Heredity". Biometrika. 2 (2): 211–236. doi:10.1093/biomet/2.2.211. JSTOR 2331683..
[15]
^Fisher, R.A. (1922). "The goodness of fit of regression formulae, and the distribution of regression coefficients". Journal of the Royal Statistical Society. 85 (4): 597–612. doi:10.2307/2341124. JSTOR 2341124. PMC 1084801..
[16]
^Ronald A. Fisher (1954). Statistical Methods for Research Workers (Twelfth ed.). Edinburgh: Oliver and Boyd. ISBN 978-0-05-002170-5..
[17]
^Aldrich, John (2005). "Fisher and Regression". Statistical Science. 20 (4): 401–417. doi:10.1214/088342305000000331. JSTOR 20061201..
[18]
^Rodney Ramcharan. Regressions: Why Are Economists Obessessed with Them? March 2006. Accessed 2011-12-03..
[19]
^Fotheringham, A. Stewart; Brunsdon, Chris; Charlton, Martin (2002). Geographically weighted regression: the analysis of spatially varying relationships (Reprint ed.). Chichester, England: John Wiley. ISBN 978-0-471-49616-8..
[20]
^Fotheringham, AS; Wong, DWS (1 January 1991). "The modifiable areal unit problem in multivariate statistical analysis". Environment and Planning A. 23 (7): 1025–1044. doi:10.1068/a231025..
[21]
^Steel, R.G.D, and Torrie, J. H., Principles and Procedures of Statistics with Special Reference to the Biological Sciences., McGraw Hill, 1960, page 288..
[22]
^Rouaud, Mathieu (2013). Probability, Statistics and Estimation (PDF). p. 60..
[23]
^Chiang, C.L, (2003) Statistical methods of analysis, World Scientific. ISBN 981-238-310-7 - page 274 section 9.7.4 "interpolation vs extrapolation".
[24]
^Good, P. I.; Hardin, J. W. (2009). Common Errors in Statistics (And How to Avoid Them) (3rd ed.). Hoboken, New Jersey: Wiley. p. 211. ISBN 978-0-470-45798-6..
[25]
^Tofallis, C. (2009). "Least Squares Percentage Regression". Journal of Modern Applied Statistical Methods. 7: 526–534. doi:10.2139/ssrn.1406472. SSRN 1406472..
[26]
^YangJing Long (2009). "Human age estimation by metric learning for regression problems" (PDF). Proc. International Conference on Computer Analysis of Images and Patterns: 74–82. Archived from the original (PDF) on 2010-01-08..

阅读 2.5w