二项分布推导泊松分布&混合泊松模型 吴佳奇 BGI9544
JJJJJ
利用泊松分布原型推测其基因组为单倍体还是二倍体,关键在于其SNP位点的覆盖深度。

而在据图直观观测SNP位点的覆盖深度时又往往会有另两方面的影响,错误测序的影响以及重复序列SNP的影响。原因如下: 推测二倍体的主要依据为SNP位点所造成的kmer曲线出现双峰(因为SNP在大多杂合二倍体基因组中广泛存在,例如人类基因组中SNP发生率大约是0.1%,假设一条链与另一条链序列有0.1%不一样,那么它们的kmer覆盖深度必然达不到纯合所以分开两峰【两链序列完全一致】的深度)。 但重复序列中SNP位点的出现亦可造成同样现象。 错误测序的影响仅在早期测序存在,后期通过对对准确度的提升已基本避免此种情况的出现。 两情况均可使用混合泊松分布模型进行分析排除。 混合泊松分布大致意思是在给定随机强度 λ的条件下的泊松分布。 可能是以二倍体标签在测序数据中的集中数目服从泊松分布,从而比对两者发生概率;也可能是运用覆盖杂合位点or重复位点kmer的深度符合泊松分布计算两者极大似然的概率从而推知是单倍体还是二倍体。 以上,参考文献《SNP de novo(原文为nono)分形中的数学问题》,其进一步计算推导不大理解o(╯□╰)o,感兴趣的同学可参考:http://www.douban.com/group/536729/new_topic 推导过程:

你的回复
回复请先 登录 , 或 注册
921 人聚集在这个小组
加入小组
相关内容推荐
最新讨论 ( 更多 )
- 招募生物统计兼职人员(线上的呦!) (社恐的小美)
- 求生物统计 信息学专业的同学 (小兔子乖乖❀)
- 家人们,有人可以告诉我蛋白质结合位点残基和相互作用位点有... (夜雨)
- 求助│xena为什么没有数据下载链接了😭 (mojo)
- 有没有人学(果子学生信)的课程呀?来交流呀 (Mischiefmanage)