学术交流

首页 / 学术交流 / 学术讲座 /

学术交流

“统计大讲堂”第174讲回顾:带有高维因变量和协变量的高斯图回归模型

2021-11-10

11月5日上午,“统计大讲堂”系列讲座第174讲举行。本次讲座采取线上会议的方式,邀请美国迈阿密大学herbert商学院管理科学系终身教授张菁菲作题为“带有高维因变量和协变量的高斯图回归模型”的报告。讲座由中国人民大学统计学院副教授、应用统计科学研究中心研究员黄丹阳主持。

黄丹阳首先介绍了主讲人的相关信息。张菁菲,美国迈阿密大学herbert商学院管理科学系终身教授与博士生导师,于南开大学获得学士学位,并于美国伊利诺伊大学香槟分校获得博士学位。科研方向包括高维网络数据分析、矩阵以及张量数据分析和点过程模型。论文发表于Journal of the American Statistical Association, Journal of Machine Learning Reasech等,现任Statistica Sinica副主编。

张菁菲首先简要地阐述了图模型的相关用途并阐释了一般情况下图模型构建的假设前提,即每个因变量独立同分布,但在实际情况下,个体之间是存在着异质性的。因而,如何弱化上述假设,得到具有“异质性”的图模型是他们团队研究的主要课题。她介绍了改进一般图模型的方法:剔除期望对协变量的估计影响或将研究对象划分为不同组别,并总结了利用图模型研究问题、分析数据的具体流程。

随后,张菁菲为同学们解释了现有的关于高斯图模型的结论:在因变量独立同分布的高斯图回归模型中,协方差矩阵内entry为零的点对应的两个变量不相关;如果两个变量具有一定相关性,其协方差矩阵中的entry一定不为零。由此,张菁菲引出了她与团队关于高斯图模型的进一步研究,即在考虑均值与外部协变量的关系、网络结构与外部协变量的关系后构建一个更复杂的回归模型。但由于每一个回归都是超高维度,每一个研究对象的协变量之间可能不独立并且损失函数中联合惩罚项是lasso与group lasso的混合体,所以理论分析的难度被大幅提升。对此,他们提出了一些新的假设,并建立了新的理论框架,进而证实混合系数假设确实比单个系数假设要更有优势。

理论分析之后,张菁菲分享了他们关于数量性状基因座与基因共同表达的研究。他们以最恶性的脑瘤GBM为例,对178个患者进行了基因测试以及SNP测试,重点关注脑瘤上的73个基因及其附近的118个SNP,并将患者年龄和性别考虑在内,得到了120个外部协变量。最终,通过训练高斯图回归模型,他们估计出了9个可能影响GBM生长的SNP。

讲座末尾,张菁菲对讲座的内容进行了总结,并介绍了团队未来研究的方向。未来在构建高斯图回归模型时,他们会进一步研究非线性的协变量影响以及高维度下统计推断的理论支撑。

在提问环节中,张菁菲耐心细致地解答了老师同学们的疑问,就本课题进行了更加深入的探讨。

此后“统计大讲堂”系列将陆续推出更多精彩讲座,敬请关注。