关于求置信区间的一点疑惑
╮(╯▽╰)╭,我经常在一些非常细小的问题上卡住。。。这是我在自己做应用的时候非常囧的事情。这次是纳闷置信区间。
你比如看这句程序;
MELE[k]<-optimize(fn1.mele2,c(3,4))$minimum
这个minimum指的是求解那个函数最值的时候对应的自变量的值。也就是我们要的点估计了。这个没问题,过。
cl.MB[k]<-uniroot(fn1.con2,c(MELE[k]-2,MELE[k]))$root
cu.MB[k]<-uniroot(fn1.con2,c(MELE[k],MELE[k]+2))$root
这两个就有点不理解了。为什么点估计的值加减2呢?看原文,这儿对应的是95%的置信区间。我查过了,
> qchisq(0.05,1)
[1] 0.00393214
> qchisq(0.95,1)
[1] 3.841459
临界值都并不等于2,那为什么加减2呢?
附上:
fn1.con2<-function(b) fn1.mele2(b)-qchisq(0.95,1)
可以从中看到fn1.mele2算的是对数似然比的值,因此后面减去了0.95对应的卡方分布的临界值。
也就是说对这个方程fn1.mele2(b)-qchisq(0.95,1)=0,解方程的范围在c(MELE[k]-2,MELE[k]),和c(MELE[k],MELE[k]+2)),去解出b的值。这个值就是对应的置信区间的边界值。
我为什么会有点疑惑呢?一个是刚才以为2有什么特殊的含义,并且把它当成了临界值,显然它不是临界值,这里为什么要取2?一个联想就是自由度为n的卡方分布的方差是2n。但是这也没什么用,因为即使去跟正态分布时候的置信区间类比,那里也是标准差乘以临界值,而不是方差。所以2有什么含义,不是很清楚,可能什么值都可以取。
第二个问题是,极限分布为卡方分布,所以我们就常常会认为置信区间是个半开的区间。然而却求出闭区间来。为什么可以这样呢?就是说自己限制了离开点估计不能太远,正负2的长度范围内。
我本来认为-2logR(x)-qchisq(0.95,1)=0,于是对应的连乘的临界值就是某个指数形函数的值。于是求和的那个平均值,也就是估计值。。。但是你要真的按照这个套路去计算的话,我想问你,你怎么把连乘的npi转化成sum(npi)?
为了搞清这个问题,来看看fn1.mele2(b)返回的是什么?
rho*el.test(mg,0,gradtol=1e-9)$"-2LLR"
没错,正是对数似然比,也就是-2logR(x)。
好吧,我就认为,理论上我们是通过-2logR(x)>=qchisq(0.95,1)来得到这个临界值的,但是要估计的参数的点估计量又并不能直接由-2logR(x)得到一个表达式,所以采取这样做,解方程-2logR(x)-qchisq(0.95,1)=0,限制解的范围,于是得到区间估计。
你比如看这句程序;
MELE[k]<-optimize(fn1.mele2,c(3,4))$minimum
这个minimum指的是求解那个函数最值的时候对应的自变量的值。也就是我们要的点估计了。这个没问题,过。
cl.MB[k]<-uniroot(fn1.con2,c(MELE[k]-2,MELE[k]))$root
cu.MB[k]<-uniroot(fn1.con2,c(MELE[k],MELE[k]+2))$root
这两个就有点不理解了。为什么点估计的值加减2呢?看原文,这儿对应的是95%的置信区间。我查过了,
> qchisq(0.05,1)
[1] 0.00393214
> qchisq(0.95,1)
[1] 3.841459
临界值都并不等于2,那为什么加减2呢?
附上:
fn1.con2<-function(b) fn1.mele2(b)-qchisq(0.95,1)
可以从中看到fn1.mele2算的是对数似然比的值,因此后面减去了0.95对应的卡方分布的临界值。
也就是说对这个方程fn1.mele2(b)-qchisq(0.95,1)=0,解方程的范围在c(MELE[k]-2,MELE[k]),和c(MELE[k],MELE[k]+2)),去解出b的值。这个值就是对应的置信区间的边界值。
我为什么会有点疑惑呢?一个是刚才以为2有什么特殊的含义,并且把它当成了临界值,显然它不是临界值,这里为什么要取2?一个联想就是自由度为n的卡方分布的方差是2n。但是这也没什么用,因为即使去跟正态分布时候的置信区间类比,那里也是标准差乘以临界值,而不是方差。所以2有什么含义,不是很清楚,可能什么值都可以取。
第二个问题是,极限分布为卡方分布,所以我们就常常会认为置信区间是个半开的区间。然而却求出闭区间来。为什么可以这样呢?就是说自己限制了离开点估计不能太远,正负2的长度范围内。
我本来认为-2logR(x)-qchisq(0.95,1)=0,于是对应的连乘的临界值就是某个指数形函数的值。于是求和的那个平均值,也就是估计值。。。但是你要真的按照这个套路去计算的话,我想问你,你怎么把连乘的npi转化成sum(npi)?
为了搞清这个问题,来看看fn1.mele2(b)返回的是什么?
rho*el.test(mg,0,gradtol=1e-9)$"-2LLR"
没错,正是对数似然比,也就是-2logR(x)。
好吧,我就认为,理论上我们是通过-2logR(x)>=qchisq(0.95,1)来得到这个临界值的,但是要估计的参数的点估计量又并不能直接由-2logR(x)得到一个表达式,所以采取这样做,解方程-2logR(x)-qchisq(0.95,1)=0,限制解的范围,于是得到区间估计。
还没人赞这篇日记