“统计大讲堂”系列讲座第二十二讲
2017-11-14
统计大讲堂第二十二讲于10月13日在明德主楼1030会议室成功举办。此次报告会邀请了上海财经大学统计与管理学院张拔群副教授和冯兴东教授分享他们的最新研究成果。本次学术报告会由统计学院许王莉教授主持,张景肖教授、尹建鑫副教授及众多统计学院硕士、博士研究生参加了本次报告会。
报告开始前,许王莉教授对两位报告人做了介绍。张拔群副教授曾就职于中国人民大学统计学院,在国际期刊Biometrika,Biometrics,Bioinformation等发表多篇学术论文,其中一篇入选ESI高引论文。其研究方向主要为生物医学统计、精准医疗。冯兴东教授曾在中国人民大学获得硕士学位,已在国际权威学术期刊上发表学术论文20余篇。其研究领域主要集中在分位数回归模型、数据矩阵降维及分布式计算。
张拔群博士的报告题目是:C-learning: a New Classification Framework to Estimate Optimal Dynamic Treatment Regimes. 精准医疗是目前生物统计领域研究的热点问题,其主要目的是针对每个病人,根据病人特征帮助其在每个时间点选择治疗方案,从而最大化最终的治疗效果。张拔群博士提出的C-learning的方法与已有方法相比,有两个特点。第一是借鉴缺失数据中的逆概率加权方法最小化一个加权的错分误差函数,估计最优决策函数。第二是先估计出后一期的最优决策函数,根据后一期的信息逐步寻找前一期的最优决策,这是一个动态规划的过程。该方法的有效性可以通过大量的模拟验证。在报告中,在场师生就对病人的细分程度、疗效的评价标准等问题与张拔群博士进行了讨论。
冯兴东的报告题目是:Distributed Variable Selection in Quantile Regression.由于数据收集的便利性,大规模数据集开始引起越来越多的重视。冯兴东教授将ADMM算法应用在分为回归模型的变量选择中,借助Spark平台进行分布式计算,实现了在多个机器上处理数据集、进行超高维数据的变量选择和参数估计,从而大大提高了运算效率,节省了运算时间。该算法不仅可以实现将样本划分到不同机器上进行计算,也可以将不同变量划分到不同机器上进行参数估计。模拟结果显示,对于十万数量级的变量个数,通过分布式计算可以在2秒左右轻松实现参数估计。在报告的最后,在场师生关于样本和变量的划分、不同机器的运行关联等问题与冯兴东博士进行了讨论。