回归分析中的有偏估计对于拟合优度的影响,以及显著性检验的有效性
引:
今天在研究回归分析时,看到总离差平方和的分解那一块时,看到那个熟悉的公式:SST=SSR+SSE。之前都没有仔细看过,匆匆扫过去了一眼,铭记在心后就继续往后翻。这次突然犹如被雷击了一般,隐约觉得有一点问题,于是就想试着证明一下,结果就引来了今晚的时间就全贡献了。
下面就开始今晚的过程:
首先,离差分解为偏差与残差和,这个完全没有一点问题。也就是u-ū=(û-ū)+(u- û)其中,ū为观测值均值,û为拟合值,u为观测值。但是到了下一步疑问就来了,离差平方和SST等于回归平方和SSR加上残差平方和SSE,这其中的等价关系值得考量,即Σ(u-ū)²=Σ(û-ū)²+Σ(u- û)²。乍一眼看去,就能感觉到这个式子是错误的。可为什么书上说明这个是正确的?于是开始演算,到最后得出充要条件为-ū²+ūΣû-Σû+²Σûu≡0。到此就好办了,用特例反证就可以很简单的说明在特别的取值下,该式并不等于0。所以SST≠SSR+SSE。这又是为什么书上要这么写?于是上网查了查资料,关于SST=SSR+SSE的证明过程,如下:
可以看得出,该证明过程的最后一步有问题,最小二乘法原理直接将y-a-bx=0代入了。这个的潜台词就是该回归分析模型是无偏估计,所以拟合值等于观测值,剔除所有违反最小二乘法构造出来的回归方程中拟合值有所偏差的观测值。如果有这样的条件,就根本不需要证明过程了,直接“因为所以,科学道理”就结束了,于是回头认真翻书,看到的是出于以下四个原因我们采用最小二乘法:1.理论上讲,最小二乘法可获得最佳估计。2.计算绝对偏差和要比计算平方偏差和难度大很多。3.最小二乘法提供了有效的检验。4.最小二乘法避免更大的误差,效果通常比较理想。在使用最小二乘法时,个别偏离较大的观测值可以去掉,可是这仍然不是拟合值等于观测值的充要条件。O~shit,一晚上的时间就这么没有了,不过这也让我对于自回归的理解更加透彻了,随机项ε与自变量为何在非相对独立时会引起回归拟合的有偏估计同时SST≠SSR+SSE的证明我也可以自己做出了。
的确,最小二乘法是模拟线性回归方程最有效的方法同时也是偏离最小的方法。但是带有如此强假设性的SST=SSR+SSE作为拟合优度的判断,同时作为回归模型显著性F检验的参数。其准确率和真实性不由得要大打折扣。数学和统计学作为科学的基石毋庸置疑,但是在应用的是否需要更加的严谨。否则很容易被利用起来,将严谨的科学工具-数学将一些非科学的理念包装成了科学。这也是为什么经济学一直被诟病为非科学-----因为其中的假设太多,而且没有一条是贴近事实的。今后对于统计学在量化投资的应用,不由得需要更加谨慎,否则,长期资本管理基金的悲剧就要重现了。当两位诺贝尔经济学奖的教授信心满怀的在28倍杠杆下用统计学模型去做量化投资时,在取得超神收益的几年后,终于发生了巨额亏损的悲剧。这个亏损值相当于模型的28倍标准差时才能达到的。(可讽刺,28倍杠杆与28倍标准差,这是巧合么?)也难怪全世界的教授都一起讽刺他们---28倍标准差事件?宇宙的年龄都不足以让一个16倍标准差事件发生!!!这也说明了,也许完美的统计模型并不是那么完美,也许显著性检验并不显著,有效回归分析并不有效。我坚信只要还有人继续用统计学领域的知识去做量化投资,那么长期资本管理基金的悲剧总归还会上演。(其实长期资本管理基金悲剧的另外一个原因在于他们败给了肥尾定律)
今天在研究回归分析时,看到总离差平方和的分解那一块时,看到那个熟悉的公式:SST=SSR+SSE。之前都没有仔细看过,匆匆扫过去了一眼,铭记在心后就继续往后翻。这次突然犹如被雷击了一般,隐约觉得有一点问题,于是就想试着证明一下,结果就引来了今晚的时间就全贡献了。
下面就开始今晚的过程:
首先,离差分解为偏差与残差和,这个完全没有一点问题。也就是u-ū=(û-ū)+(u- û)其中,ū为观测值均值,û为拟合值,u为观测值。但是到了下一步疑问就来了,离差平方和SST等于回归平方和SSR加上残差平方和SSE,这其中的等价关系值得考量,即Σ(u-ū)²=Σ(û-ū)²+Σ(u- û)²。乍一眼看去,就能感觉到这个式子是错误的。可为什么书上说明这个是正确的?于是开始演算,到最后得出充要条件为-ū²+ūΣû-Σû+²Σûu≡0。到此就好办了,用特例反证就可以很简单的说明在特别的取值下,该式并不等于0。所以SST≠SSR+SSE。这又是为什么书上要这么写?于是上网查了查资料,关于SST=SSR+SSE的证明过程,如下:
![]() |
可以看得出,该证明过程的最后一步有问题,最小二乘法原理直接将y-a-bx=0代入了。这个的潜台词就是该回归分析模型是无偏估计,所以拟合值等于观测值,剔除所有违反最小二乘法构造出来的回归方程中拟合值有所偏差的观测值。如果有这样的条件,就根本不需要证明过程了,直接“因为所以,科学道理”就结束了,于是回头认真翻书,看到的是出于以下四个原因我们采用最小二乘法:1.理论上讲,最小二乘法可获得最佳估计。2.计算绝对偏差和要比计算平方偏差和难度大很多。3.最小二乘法提供了有效的检验。4.最小二乘法避免更大的误差,效果通常比较理想。在使用最小二乘法时,个别偏离较大的观测值可以去掉,可是这仍然不是拟合值等于观测值的充要条件。O~shit,一晚上的时间就这么没有了,不过这也让我对于自回归的理解更加透彻了,随机项ε与自变量为何在非相对独立时会引起回归拟合的有偏估计同时SST≠SSR+SSE的证明我也可以自己做出了。
的确,最小二乘法是模拟线性回归方程最有效的方法同时也是偏离最小的方法。但是带有如此强假设性的SST=SSR+SSE作为拟合优度的判断,同时作为回归模型显著性F检验的参数。其准确率和真实性不由得要大打折扣。数学和统计学作为科学的基石毋庸置疑,但是在应用的是否需要更加的严谨。否则很容易被利用起来,将严谨的科学工具-数学将一些非科学的理念包装成了科学。这也是为什么经济学一直被诟病为非科学-----因为其中的假设太多,而且没有一条是贴近事实的。今后对于统计学在量化投资的应用,不由得需要更加谨慎,否则,长期资本管理基金的悲剧就要重现了。当两位诺贝尔经济学奖的教授信心满怀的在28倍杠杆下用统计学模型去做量化投资时,在取得超神收益的几年后,终于发生了巨额亏损的悲剧。这个亏损值相当于模型的28倍标准差时才能达到的。(可讽刺,28倍杠杆与28倍标准差,这是巧合么?)也难怪全世界的教授都一起讽刺他们---28倍标准差事件?宇宙的年龄都不足以让一个16倍标准差事件发生!!!这也说明了,也许完美的统计模型并不是那么完美,也许显著性检验并不显著,有效回归分析并不有效。我坚信只要还有人继续用统计学领域的知识去做量化投资,那么长期资本管理基金的悲剧总归还会上演。(其实长期资本管理基金悲剧的另外一个原因在于他们败给了肥尾定律)
-
Jaylan 赞了这篇日记 2019-05-21 21:20:24