数据的显著性差异,从O型血不易感新冠病毒说起
今年三月份MedRxiv上发表的预印版论文"Relationship between the ABO Blood Group and the COVID-19 Susceptibility"表明,A型血人群有更高的风险患新型冠状病毒,而O型血患病风险则相对低。

其中,分析的样本有武汉市金银坛医院的1775名新冠肺炎患者,以及武汉市3694名正常人的血型分布,我们整理出来表格对比一下:

有人调侃说这个研究有什么用,还不如做点别的。但是从统计学角度来看,这个研究发现,是非常有价值的。
揭示事物奥秘的动力,往往来自于好奇与发现;新的科学理论的产生,往往是由于旧的理论无法解释某些现象。例如,牛顿经典力学无法解释观测到的星际现象与按照理论计算出来的差异,才有了相对论的提出与验证。
从新的现象思考新的理论,是科学家要做的事;用旧的理论来解释自然现象,是在校学生的思维。
下面说正题,这个数字差异为什么有意义,以及什么是显著性差异。
用通俗的讲就是,分布有些不同,是偶然现象,还是非偶然现象?
统计学上,显著性检验的定义:
“显著性检验(significance test)就是事先对总体(随机变量)的参数或总体分布形式做出一个假设,然后利用样本信息来判断这个假设(备择假设)是否合理,即判断总体的真实情况与原假设是否有显著性差异。”
教科书式的解释就是:
“显著性检验是针对我们对总体所做的假设做检验,其原理就是“小概率事件实际不可能性原理”来接受或否定假设。抽样实验会产生抽样误差,对实验资料进行比较分析时,不能仅凭两个结果(平均数或率)的不同就作出结论,而是要进行统计学分析,鉴别出两者差异是抽样误差引起的,还是由特定的实验处理引起的。”
举个日常生活中的例子:
住在两个相邻的小区(小区A、小区B)的初三学生,每月月考,现在有6个月的数学学科成绩数据。小区A有4个月平均成绩高于小区B,有2个月成绩低于小区B;总体上,小区A的整体平均分,高于小区B。是否说明住在A小区的学生数学学习比B小区的好?并涉及到决策:为了孩子,我是否应该从B小区搬到A小区?
一般的想法是,两个相邻的小区、同一学校、老师也一样,偶尔一次两次不同,成绩应该差不多的。
但从统计学角度,需要具体分析两组数据是否有显著性差异。
这涉及到了统计分析,A小区的学习成绩是否显著高于B小区?说得通俗些就是,A小区成绩高于B小区,是不是偶然现象?
a. 如果统计学上不具有显著性差异,那么就说明"小区A成绩高"很可能就是个偶然现象,两边成绩其实没什么差异。
b. 如果统计学上具有显著差异,那么"小区A成绩高"不是偶然现象,有一些潜在因素在起作用。有需要的话,就必须找到那个原因。
比如,可能的原因或许有:
(1)A小区富裕些,补课的孩子多;
(2)B小区最近在施工,影响了孩子的休息;
(3)B小区有几个不学习的坏孩子,影响了孩子学习;
如果只是补课的原因,那么你就不需要搬家,因为你家孩子也一直在补课;如果是因为施工,那就要考虑怎样消除影响;如果是周边环境原因,那就要考虑搬家事宜了。原因找到了,才能对症下药。
这个例子主要是说明,“现象->寻找原因”这个过程。往往,凭直觉是不准确的;很可能的情况是,统计学上已经有了显著性差异,但直观上没有感受到;如果不针对潜在的因素加以控制,会造成更严重的后果。
再回到O型血的人不易患新冠病毒这个论文。
我们看到,O型血正常人群比例33.84%,新冠样本中比例为25.80%,统计学分析计算后,表明有显著差异(P<0.001);而AB型血正常人群比例9.10%,新冠样本中比例为10.03%,计算后,不能说明具有显著差异(P=0.291)。
(注:P值越小,“样本分布与假设分布一致”事件发生的概率越小)
就是说,新冠样本中AB型血比例高,可能是偶然现象;而O型血比例低,很可能是有原因的,需要科学进一步研究。
参考文献:
"Relationship between the ABO Blood Group and the COVID-19 Susceptibility",
Jiao Zhao, Yan Yang, Hanping Huang, Dong Li, Dongfeng Gu, Xiangfeng Lu, Zheng Zhang, Lei Liu, Ting Liu, Yukun Liu, Yunjiao He, Bin Sun, Meilan Wei, Guangyu Yang, Xinghuan Wang, Li Zhang, Xiaoyang Zhou, Mingzhao Xing, Peng George Wang.
- THE END -
如果你觉得文章对你有所帮助或启发,可以关注公众号「一麾」,查阅更多的优质原创。