Biostatistics课程小结(继续更新中)
7月22日
Lecturer: Wenyi Wang, Department of Bioinformatics and Computational Biology, The University of Texas MD Anderson Cancer Center
主页链接 http://faculty.mdanderson.org/Wenyi_Wang/Default.asp?SNID=1347362362
8:30-11:20
Dr. Wang首先简单讲述了一下自己在Biostatistics领域经历。01年毕业于复旦大学生命科学专业。03年于Columbia拿到M.S.逐渐发现自己对Statististics的兴趣,转入Johns Hopkins的Public Health学院攻读Biostatistics (众所周知,该学院在世界是top1的地位。Johns Hopkins!Public Health!!各种嫉妒羡慕狠…),师从Dr. Giovanni Parmigiani (http://astor.som.jhmi.edu/~gp/)和Dr. Rafael Irizarry (http://rafalab.jhsph.edu/)。 博士毕业后参与了斯坦福大学和UC伯克利的项目,导师是Dr. Ron Davis(http://med.stanford.edu/profiles/Ronald_Davis/) 和 Dr. Terry Speed (http://www.stat.berkeley.edu/~terry/). 两位都是Microarray的先驱者,所以可见Dr. Wang在此过程中接受到怎样的training。Dr. Ron Davis下午有再次提到(说起来我也算Bio-X中心学生,嘿嘿)。另补充下Dr. Wang目前所在的MD Anderson Cancer Center http://www.mdanderson.org/,是全美乃至全世界最大的癌症研究中心,已经连续5年勇夺“美国最佳医院排行榜”榜首。
接着简单概述了对Statistical Bioinformatics的观点Interface between biology, medicine, computation and statistics. 是problem-driven的领域(思考)。提到尝试寻找最感兴趣的point, then be good at it.这一点昨天Dr. Liu也有提到。
私以为以上部分虽有各种八卦,看似轻松愉快,但却是课程精华所在,毕竟很多知识技能如果课后没有实用,将很快被遗忘,而有些引人思考的话语,职业转型发展的历程是非常值得借鉴的。
终于切入课程正题。
The Structure of High throughput Data: Affymetrix
1. Microarray原理
重点在该技术是如何被提出、改进、发展的。科研过程的精华所在。
Target Probe之间的Hybridization。两种探针PM、MM。
2. 导出数据格式EXP, DAT, CEL, CDF, CHP。各种文件形式、内容
EXP: Contains basic information about the experiment
DAT: Contains the raw image.
CEL: Contains features quantifications
CDF: Maps between features, probes, probe-sets, and genes
CHP: Contains gene expression levels, as assessed by the Affy-software. MAS 4.0重点
如何分析数据结果,Models
dChip http://biosun1.harvard.edu/complab/dchip/ 早期 不完善但重要的在设计思路
如何确定θ,然后由θ得到ψ。
神来之笔。
3. Quantification
1) Processing Affymetrix data
– Background correction
– Normalization (on the level of features = probes)
– PM-correction
– Summarization
2) 如何改进dChip
MAS 5.0
RMA
PDNN
13:30-16:10
先热场讲了2个小故事。主角是上午提到的Dr. Ron Davis。
伟大的科学家跟普通科研人员的区别:
1)创新性。
2)敢想敢做,有挑战未知的勇气。
3)具有战略性眼光。
1. Normalization
2. Visualization (重要,建立概念)
Bland-Altman (M-versus-A) plots
3. M-versus-A http://en.wikipedia.org/wiki/MA_plot
1) 实现方法
Housekeeping genes
Spike-ins
Simple scaling
每种方法的优点、局限性。
2) 设定Baseline
Median intensity 注意不是平均数
3) Quantile normalization
http://en.wikipedia.org/wiki/Quantile_normalization
很有趣的推导过程,见笔记本。
4) Processing
Check the context of the experiment
Check the pairwise MA plots
Check images of the CEL files→go with quantiles
5) 要始终铭记的
–what we are measuring
–what are potential problems that need to be addressed
–what are the assumptions that we have made along the way
4. Reproducible Research
各种科研小故事,告诫大家要认真严谨,实事求是,对自己负责,对funding负责,对科研负责,最重要的是对病人负责。
同时不能不承认科学家真是一群精力充沛、喜欢找茬的家伙们…
5. R, LaTex and Sweave简介及操作
Sweave= R +LaTex
以操作为主略去。
Lecturer: Wenyi Wang, Department of Bioinformatics and Computational Biology, The University of Texas MD Anderson Cancer Center
主页链接 http://faculty.mdanderson.org/Wenyi_Wang/Default.asp?SNID=1347362362
8:30-11:20
Dr. Wang首先简单讲述了一下自己在Biostatistics领域经历。01年毕业于复旦大学生命科学专业。03年于Columbia拿到M.S.逐渐发现自己对Statististics的兴趣,转入Johns Hopkins的Public Health学院攻读Biostatistics (众所周知,该学院在世界是top1的地位。Johns Hopkins!Public Health!!各种嫉妒羡慕狠…),师从Dr. Giovanni Parmigiani (http://astor.som.jhmi.edu/~gp/)和Dr. Rafael Irizarry (http://rafalab.jhsph.edu/)。 博士毕业后参与了斯坦福大学和UC伯克利的项目,导师是Dr. Ron Davis(http://med.stanford.edu/profiles/Ronald_Davis/) 和 Dr. Terry Speed (http://www.stat.berkeley.edu/~terry/). 两位都是Microarray的先驱者,所以可见Dr. Wang在此过程中接受到怎样的training。Dr. Ron Davis下午有再次提到(说起来我也算Bio-X中心学生,嘿嘿)。另补充下Dr. Wang目前所在的MD Anderson Cancer Center http://www.mdanderson.org/,是全美乃至全世界最大的癌症研究中心,已经连续5年勇夺“美国最佳医院排行榜”榜首。
接着简单概述了对Statistical Bioinformatics的观点Interface between biology, medicine, computation and statistics. 是problem-driven的领域(思考)。提到尝试寻找最感兴趣的point, then be good at it.这一点昨天Dr. Liu也有提到。
私以为以上部分虽有各种八卦,看似轻松愉快,但却是课程精华所在,毕竟很多知识技能如果课后没有实用,将很快被遗忘,而有些引人思考的话语,职业转型发展的历程是非常值得借鉴的。
终于切入课程正题。
The Structure of High throughput Data: Affymetrix
1. Microarray原理
重点在该技术是如何被提出、改进、发展的。科研过程的精华所在。
Target Probe之间的Hybridization。两种探针PM、MM。
![]() |
Heatmap |
2. 导出数据格式EXP, DAT, CEL, CDF, CHP。各种文件形式、内容
EXP: Contains basic information about the experiment
DAT: Contains the raw image.
CEL: Contains features quantifications
CDF: Maps between features, probes, probe-sets, and genes
CHP: Contains gene expression levels, as assessed by the Affy-software. MAS 4.0重点
如何分析数据结果,Models
dChip http://biosun1.harvard.edu/complab/dchip/ 早期 不完善但重要的在设计思路
![]() |
dChip |
如何确定θ,然后由θ得到ψ。
神来之笔。
3. Quantification
1) Processing Affymetrix data
– Background correction
– Normalization (on the level of features = probes)
– PM-correction
– Summarization
2) 如何改进dChip
MAS 5.0
![]() |
MAS 5.0 |
RMA
![]() |
RMA |
PDNN
13:30-16:10
先热场讲了2个小故事。主角是上午提到的Dr. Ron Davis。
伟大的科学家跟普通科研人员的区别:
1)创新性。
2)敢想敢做,有挑战未知的勇气。
3)具有战略性眼光。
1. Normalization
2. Visualization (重要,建立概念)
Bland-Altman (M-versus-A) plots
3. M-versus-A http://en.wikipedia.org/wiki/MA_plot
1) 实现方法
Housekeeping genes
Spike-ins
Simple scaling
每种方法的优点、局限性。
2) 设定Baseline
Median intensity 注意不是平均数
3) Quantile normalization
http://en.wikipedia.org/wiki/Quantile_normalization
很有趣的推导过程,见笔记本。
4) Processing
Check the context of the experiment
Check the pairwise MA plots
Check images of the CEL files→go with quantiles
5) 要始终铭记的
–what we are measuring
–what are potential problems that need to be addressed
–what are the assumptions that we have made along the way
4. Reproducible Research
各种科研小故事,告诫大家要认真严谨,实事求是,对自己负责,对funding负责,对科研负责,最重要的是对病人负责。
同时不能不承认科学家真是一群精力充沛、喜欢找茬的家伙们…
5. R, LaTex and Sweave简介及操作
Sweave= R +LaTex
以操作为主略去。