“统计大讲堂”系列讲座第一百三十二讲顺利举行
2020-10-21
10月16日上午,“统计大讲堂”系列讲座第一百三十二讲举行。本次讲座采用线下讲座与在线直播相结合的方式,清华大学统计学研究中心助理教授王天颖受邀作题为“Integrated Quantile Rank Test for gene-level associations in sequencing studies”的报告。统计学院教师、应用统计科学研究中心研究员孙韬参加本次讲座。讲座由统计学院副教授尹建鑫主持。
尹建鑫首先介绍了报告人的相关信息,王天颖毕业于美国德州农工大学统计系,目前是清华大学统计学研究中心助理教授。主要研究方向为分位数回归、测量误差分析、高维数据统计分析、流行病学与生物遗传学的统计分析、电子医疗病历数据分析。
王天颖首先介绍了研究报告的背景。基因是一系列SNP序列,人类基因组计划估计人体大约有20,000至25,000组基因。根据个体遗传图谱,可以推知其对疾病的敏感程度。全基因组关联研究(GWAS)在全基因组层面上,探究普通变量和复杂的性状或疾病之间的关联。通过对GWAS的一些成功案例的分析,她指出基因研究的最终目标是改进转化医学。同时,GWAS也存在一些不足之处,只能解释小部分常见疾病的遗传风险,并且大多数罕见突变只能在大样本中观测到。在对现有的研究罕见突变位点的序列分析中,她回顾了Burden和SKAT两种常用统计量,并指出SKAT对检测含有正负影响混合的罕见突变位点的基因更有效。
王天颖展示了单细胞转录的具有不同双峰分布的模式,并指出近期研究发现基因的影响比一般的关联性更加复杂,这是基因研究中采用分位数分析的一大动力。目前基因研究的局限在于基因可以对整个性状分布产生各种各样的影响,且基于平均数的假设检验统计量在数据有异质性的情况下会失效。为了克服局限性,需要开发基于分位数的试验来综合整个分布中各种各样的关联。通过公式、图表等多种形式,王天颖详细地讲解了分位数效应、分位数回归、序列分析中的分位数模型及其检验等。
王天颖指出,iQRAT是序列数据分析中第一个分位数工具。与SKAT相比,iQRAT更能适应基因关联的多样性,也不需要估计冗杂的参数,同时避免了反常变换,并将整个分布中的所有信息都纳入考虑范围,便于进一步的分组研究。
在交流讨论环节,线上和现场师生积极提问,王天颖一一详细解答,使大家对iQRAT的原理和应用有了更深的理解。