“统计大讲堂”第151讲回顾:数据科学中的子抽样问题
2021-04-30
4月28日上午,“统计大讲堂”系列讲座第151讲举行。本次讲座采取在线会议的方式,邀请美国佐治亚大学的杰出教授和大数据分析实验室的共同主任马平教授作题为“数据科学中的子抽样问题”的报告。统计学院教授、应用统计科学研究中心研究员吕晓玲参加讲座。讲座由统计学院教授、应用统计科学研究中心研究员许王莉主持。
许王莉首先介绍了主讲人的相关信息。马平是美国美国佐治亚大学的杰出教授和大数据分析实验室的共同主任,同时是伊利诺伊大学高等研究中心贝克曼讲席教授、美国国家超级计算和应用中心讲席教授、美国统计协会的会士。曾获美国国家科学基金会杰出青年科学家奖CAREER AWARD、2011年加拿大统计杂志最佳论文奖。
马平首先介绍了大数据环境下子抽样方法的在不同场景下的应用,包括机器学习中的支持向量机,计算几何中的核子集以及优化中的mini-batch。在此基础上,马平和其他的学者一起对其他情境下的子抽样问题进行了研究,包括线性回归模型的子抽样、数据流中的子抽样、误假定模型的子抽样以及非参数模型的子抽样。
接下来马平重点阐述了子抽样问题中的数据点选取方法。已经成熟的方法是基于实验的重抽样:将均匀设计中的拉丁方设计(Latin Hypercube Design)思想引入子抽样中,通过寻找实验设计点附近的样本点完成抽样。仍待探究的方法借鉴了最优传输技术,能更有效地选取具有代表性的子样本。
在提问交流环节,马平耐心解答了同学们的提问,进一步介绍了子抽样领域的前沿研究成果。
此后“统计大讲堂”系列将陆续推出更多精彩讲座,敬请关注。