“统计大讲堂”第141讲
2021-01-18
1月7日上午,“统计大讲堂”系列讲座第一百四十一讲举行。本次讲座采取在线会议的形式,邀请康涅狄格大学统计系助理教授王海鹰作题为“Maximum sampled conditional likelihood estimation for informative subsample”的报告。讲座由统计学院教授、生物统计与流行病学系主任许王莉教授主持,统计学院教师李伟、统计与大数据研究院教师代文林等校内外师生共计70余人参加。
许王莉教授首先介绍了报告人的相关信息。王海鹰老师是康涅狄格大学统计系助理教授,中国科学院硕士,美国密苏里大学博士。他的主要研究方向包括大数据的有信息子数据选择、模型选择、模型平均、半参数回归等。有多篇论文发表在《Journal of the American Statistical Association》《Biometrika》《Journal of Machine Learning Research》等国际统计学和机器学习顶尖学术期刊。
王海鹰老师首先介绍了子抽样方法的重要性。随着大数据时代的到来,人们所能获取的数据以指数级的速度增加。数据是信息的载体,如何从数据中提取有用的信息,一直是统计学和数据科学的核心研究课题之一。通过子抽样方法,从整个数据集中巧妙地抽取一组有效的子样本,通过子样本来推断全样本的估计结果,从而大大节省计算时间。然而,目前大多数可用的方法使用逆概率加权目标函数来估计模型参数,这种加权估计没有充分利用所选子样本中的信息。
在有信息的子抽样的基础上,为了避免逆概率加权,王老师提出用抽样数据的条件似然来获得子样本估计量。理论结果表明,该估计量具有渐近正态性,并且在一类包含逆概率加权估计量在内的渐进无偏估计量中其渐近协方差矩阵达到最小。王老师展示了在多类别逻辑回归和泊松回归设定下,该方法与其他现有方法相比较的模拟研究结果,以及将该方法应用于植被类型数据的实际数据分析结果,证实了该方法的优良性。
在交流讨论环节,在线师生积极提问。王海鹰老师对该方法在有放回抽样时由于子样本之间不再独立所带来的问题以及将该方法推广到高维时可能遭遇的问题和挑战进行了进一步解答。
本次讲座内容充实,条理清晰,系统介绍了一种有信息子样本的条件极大似然估计量,详尽地阐释了该估计量的求解过程和广泛应用。此后“统计大讲堂”系列将继续推出更多精彩讲座,敬请关注。