回归分析(英语:Regression Analysis)是一种统计学上分析数据的方法,目的在于了解两个或多个变量间是否相关、相关方向与强度,并建立数学模型以便观察特定变量来预测研究者感兴趣的变量。更具体的来说,回归分析可以帮助人们了解在只有一个自变量变化时因变量的变化量。一般来说,通过回归分析我们可以由给出的自变量估计因变量的条件期望。
回归分析是建立被解释变量 � Y(或称因变量、依变量、反因变量)与解释变量 � X(或称自变量、独立变量)之间关系的模型。简单线性回归使用一个自变量 � X,复回归使用超过一个自变量( � 1 , � 2 . . . � � X_{1},X_{2}...X_{i})。
目录 1 起源 2 回归分析原理 2.1 参数估计 3 回归模型 4 回归分析的种类 4.1 简单线性回归 4.2 复回归(或多变量回归) 4.3 对数线性回归 4.4 非线性回归 4.5 对数几率回归 4.6 偏回归 4.7 自回归 4.7.1 自回归滑动平均模型 4.7.2 差分自回归滑动平均模型 4.7.3 向量自回归模型 5 参阅 6 参考资料 7 外部链接 起源 回归的最早形式是最小二乘法,由1805年的勒让德(Legendre)[1],和1809年的高斯(Gauss)出版[2]。勒让德和高斯都将该方法应用于从天文观测中确定关于太阳的物体的轨道(主要是彗星,但后来是新发现的小行星)的问题。 高斯在1821年发表了最小二乘理论的进一步发展[3],包括高斯-马尔可夫定理的一个版本。
“回归”一词最早由法兰西斯·高尔顿(Francis Galton)所使用[4][5]。他曾对亲子间的身高做研究,发现父母的身高虽然会遗传给子女,但子女的身高却有逐渐“回归到中等(即人的平均值)”的现象。不过当时的回归和现在的回归在意义上已不尽相同。
在1950年代和60年代,经济学家使用机械电子桌面计算器来计算回归。在1970年之前,这种计算方法有时需要长达24小时才能得出结果[6]。
回归分析原理 目的在于找出一条最能够代表所有观测资料的函数曲线(回归估计式)。 用此函数代表因变量和自变量之间的关系。 参数估计 动差估计(Method of Moment、MOM) 最小二乘法(Ordinary Least Square Estimation, OLSE) 最大似然估计(Maximum Likelihood Estimation, MLE) 回归模型 回归模型主要包括以下变量:
未知参数,记为 �\beta ,可以代表一个标量或一个向量。 自变量, � {\displaystyle \mathbf {X} }。 因变量, � Y。 回归模型将 � Y和一个关于 � {\displaystyle \mathbf {X} }和 �\beta 的函数关联起来。
在不同的应用领域有各自不同的术语代替这里的“自变量”和“因变量”。
� ≈ � ( � , � ) Y\approx f({\mathbf {X}},{\boldsymbol {\beta }}) 这个估计值通常写作: � ( � | � )
� ( � , � ) {\displaystyle E(X|Y)=f(\mathbf {X} ,{\boldsymbol {\beta }})}。
在进行回归分析时,函数 � f的形式必须预先指定。有时函数 � f的形式是在对 � Y和 � {\displaystyle \mathbf {X} }关系的已有知识上建立的,而不是在数据的基础之上。如果没有这种已有知识,那么就要选择一个灵活和便于回归的 � f的形式。
假设现在未知向量 �\beta 的维数为k。为了进行回归分析,必须要先有关于 � Y的信息:
如果以 ( � , � ) {\displaystyle (Y,\mathbf {X} )}的形式给出了 � N个数据点,当 � < � {\displaystyle N<k}时,大多数传统的回归分析方法都不能进行,因为数据量不够导致回归模型的系统方程不能完全确定 �\beta 。 如果恰好有 �
� {\displaystyle N=k}个数据点,并且函数 � f的形式是线性的,那么方程 �
� ( � , � ) {\displaystyle Y=f(\mathbf {X} ,{\boldsymbol {\beta }})}能精确求解。这相当于解一个有 � N个未知量和 � N个方程的方程组。在 � \mathbf{X}线性无关的情况下,这个方程组有唯一解。但如果 � f是非线性形式的,解可能有多个或不存在。 实际中 �
� {\displaystyle N>k}的情况占大多数。这种情况下,有足够的信息用于估计一个与数据最接近的 �\beta 值,这时当回归分析应用于这些数据时,可以看作是解一个关于 �\beta 的超定方程。 在最后一种情况下,回归分析提供了一种完成以下任务的工具: ⒈找出一个未知量 �\beta 的解使因变量 � Y的预测值和实际值差别最小(又称最小二乘法)。
⒉在特定统计假设下,回归分析使用数据中的多余信息给出关于因变量 � Y和未知量 �\beta 之间的关系。
回归分析的种类 简单线性回归 简单线性回归(英语:simple linear regression)
应用时机 以单一变量预测 判断两变量之间相关的方向和程度 复回归(或多变量回归) 复回归分析(英语:multiple regression analysis)是简单线性回归的一种延伸应用,用以了解一个依变项与两组以上自变项的函数关系。
对数线性回归 对数线性回归(英语:Log-linear model),是将解释变项(实验设计中的自变项)和反应变项(实验设计中的依变项)都取对数值之后再进行线性回归,所以依据解释变项的数量,可能是对数简单线性回归,也可能是对数复回归。
非线性回归 对数几率回归 主条目:对数几率回归 对数几率回归(英语:Logistic Regression)
偏回归 偏回归(英语:Partial Regression)
自回归 主条目:自回归模型 自回归滑动平均模型 主条目:ARMA模型 差分自回归滑动平均模型 主条目:ARIMA模型 向量自回归模型 主条目:向量自回归模型 参阅 概率与统计主题 曲线拟合 估计理论 广义线性模型 多元正态分布 皮尔逊积矩相关系数 信号处理 相关分析 多元变量统计
本站文章除注明转载/出处外,均为本站原创或翻译,转载前请务必署名,转载请标明出处
最后编辑时间为: