商务与经济统计-简单线性回归
第14章:简单线性回归
模型的方程与求解
回归模型:y=Bo + B1*x + ε
回归方程:E(y)=Bo + B1*x (此处假定误差项 ε 的数学期望为0)
根据样本获得总体参数(Bo , B1)的估计值bo,b1,估计方法为min( Σ(估计值-实际值)的平方),最小二乘法求解得到
判定系数:R^2=SSR/SST (对回归方程的拟合优度作出评估,取值在0-1,越大越好)。相关系数只能用来衡量2个变量的相关关系,故判定系数应用范围更广
R^2高,只不过意味着回归直线较好的拟合了样本数据,并不能得出 x和y 之间的关系在统计上是否显著的结论
y与x的显著性检验
如果B1不等于0,则变量x和y存在线性关系
对误差项ε 的4项假定:
ε 是平均值或期望为0的随机变量,即E(ε)=0;
对所有的x,ε是一个正态分布的随机变量;
对所有的x,方差 σ^2 都相等;
ε的值是相互独立的;
ε 的方差 σ^2 也是应变量y 关于回归直线的方差
t 检验:均方误差MSE=SSE / (n-2) = s^2 作为 σ^2的无偏估计。使用P值法对假设 B1=0进行检验;也可以利用置信区间对B1检验,看B1 的假设值是否包含在置信区间中
F 检验:基本原理是建立 σ^2 的两个独立的估计量。 MSR=SSR/自由度。计算MSR/ MSE的比值。当B1=0,MSR/ MSE的值应接近于1。较大的MSR/ MSE可能表明两变量 x和 y 在统计上是显著的
⚠️:拒绝了Ho: B1=0,表明变量 x和 y 之间存在统计显著性关系,但不能让我们作出变量 x和 y存在线性关系的结论。只能说在x的样本观测值范围内, x和 y 是相关的
置信区间和预测区间
符号定义:
x* 表示自变量x 的一个给定值;
y* 表示当x=x*时,应变量y的可能值,为一个随机变量;
E(y*) 表示当x=x*时,应变量y的平均值或数学期望;
ŷ*=bo+b1·x* 表示当x=x*,E(y*) 的点估计值和y*的一个个别值的预测值
回归方程求解的点估计值和预测值,不能提供估计或预测精度的任何信息,故引入置信区间和预测区间。置信区间,它是对于x的一个给定值,y的平均值的一个区间估计。预测区间是对于x的一个给定值,对于y的一个个别值进行预测的一个区间估计
置信区间是希望ŷ* 接近E(y*),若想要作出ŷ* 如何接近E(y*)的推断,需计算ŷ* 的方差。将方差作为边缘误差的一部分来构造置信区间。在x*=x的平均值时,置信区间范围最窄,估计最精确
预测区间的范围比置信区间要大,即精确度要差一些。包含2部分方差,ŷ* 关于E(y*)的方差和 y*关于E(y*)的方差
残差分析:证实模型假定
残差分析是确定误差项ε 的假定是否成立的重要步骤
1、自变量与残差的散点图
2、应变量的预测值ŷ 与残差的散点图,趋势和自变量与残差的散点图一致,但是应用范围更广,不会受到自变量个数的局限
3、标准化残差图
先讲残差进行标准化。因为残差平均值为0,故 除以标准差即可
看是否符合正态分布的规律,即95%的点散布在【-2,2】之间
4、正态概率图:看是否斜率为45度的散点图
有影响的观测值:高杠杆率点或大的残差