“统计大讲堂”第173讲回顾:完整数据分布不可识别下识别和估计不可忽略缺失结果的均值
2021-11-01
10月28日上午,“统计大讲堂”系列讲座第173讲举行。本次讲座采取在线会议的方式,邀请中国人民大学统计学院讲师李伟作题为“完整数据分布不可识别下识别和估计不可忽略缺失结果的均值”的报告,讲座由中国人民大学统计学院副教授、应用统计科学研究中心研究员林存洁主持。
林存洁首先介绍了主讲人的相关信息。李伟是中国人民大学统计学院生物统计与流行病学系讲师,北京大学数学科学学院博士,主要研究领域为因果推断、缺失数据、高维统计等。目前已在包括Biometrika, Journal of Econometrics, Biometrics等国际著名统计期刊上发表多篇学术论文。主持一项国家自然科学青年基金项目,参与完成多项国家自然科学基金面上项目。
李伟首先介绍了报告的相关工作,该工作由他与北京大学苗旺教授和宾夕法尼亚大学Eric Tchetgen Tchetgen教授合作完成。李伟指出,在当今社会背景下,响应变量缺失的数据在社会科学、生物医学研究当中经常出现,比如在涉及敏感性问题的研究中,有人不愿意配合调查;在跟踪调查的研究中,有人由于种种原因中途退出。缺失机制分为三类,完全随机缺失、随机缺失、非随机缺失。这就引出我们感兴趣的问题:当数据出现不可忽略的缺失时,如何去识别和估计结局变量的总体均值。
然而,非随机缺失的数据分析过程中,存在许多挑战。李伟向同学们介绍,除了基于全参数模型、半参数模型等方法,还可以基于辅助变量去解决问题。常用的辅助变量有两类,工具变量和影子变量。工具变量只能间接地通过影响缺失过程去影响结局变量。影子变量相对来说使用更加广泛,它不能直接影响表示缺失的示性变量,只能间接地通过影响结局变量去影响示性变量。无论是哪一种,本质上都是在构造条件独立性。李伟表示,他的相关研究就在影子变量的框架下进行,目标是在更弱的条件下直接得到感兴趣的参数,绕过估计倾向评分或者结果变量回归得到响应变量均值的估计。
李伟首先假定影子变量能够完全观测。为了加强理解,他就“基于教师的评估分数去评价儿童的精神健康”一例进行了解释。随后他讨论了Fredholm积分方程的一个特例,通过非参数求解连接影子变量和结果均值的表示方程,提出估计量,避免了倾向得分和结果变量回归的建模,建立了所提估计量的渐近性质,证明了其局部有效性,并在一定的正则性条件下得到了影子变量模型的半参数效率界。他表示,该理论运用范围十分广泛,可以用来解决非随机缺失的结果变量回归的问题、协变量缺失的问题,以及因果推断中不可观测的混杂问题。
讲座末尾,李伟进行了总结。当结果变量有一个或者多个代理变量的时候,影子变量的存在是合理的。关于此方法存在着许多可能的扩展方向,比如用更现代的机器学习的方法去求解表示方程,巧妙运用神经网络等。
最后,在提问交流环节,在线师生积极参与讨论,李伟耐心解答了同学们的疑问,并和同学们一起就影子变量做了更加深入的探讨。
此后“统计大讲堂”系列将陆续推出更多精彩讲座,敬请关注。