学术交流

首页 / 学术交流 / 学术讲座 /

学术交流

“统计大讲堂”第168讲回顾:基于精算修正损失函数的决策树不平衡学习

2021-10-24

10月13日上午,“统计大讲堂”系列讲座第168讲举行。本次讲座采取在线会议的方式,邀请伊利诺伊理工大学香槟分校数学学院助理教授 Zhiyu Quan作题为“基于精算修正损失函数的决策树不平衡学习”的报告,讲座由中国人民大学统计学院副教授、应用统计科学研究中心研究员高光远主持。

高光远首先介绍了主讲人的相关信息。Zhiyu Quan是伊利诺伊大学香槟分校数学学院助理教授,持有康涅狄格大学的精算学博士学位。在加入伊利诺伊大学之前,他曾在一家顶尖的保险科技公司担任研发数据科学家,为大型保险公司开发数据解决方案。他在数据科学应用方面有广泛的研究兴趣,如决策树模型、自然语言处理、深度学习,他应用精算专业知识建立预测模型,用于理赔研究、费率制定等。他的研究项目由真实数据驱动,灵感来自于与保险科技公司和传统保险公司的合作。此外,他还是伊利诺伊风险实验室(IRisk Lab)的指导教师,该实验室促进将学术研究与实际商业问题结合的研究活动。近期他获得了Arnold O. Beckman Research Award。

Zhiyu Quan首先介绍了他的研究动机:解决保险损失数据中的不平衡问题,以及提高CART框架在分离零响应变量和非零响应变量的精度。随后,针对第一个问题,Zhiyu Quan列举了三个不平衡学习技术:Resampling, Ensemble methods和cost-sensitive learning,并说明了如何将cost-sensitive learning的思路运用在CART框架的损失函数定义中:对0和非0预测误差分配不同的权重。

针对第二个问题,Zhiyu Quan从CART框架的基本思路方法着手,对决策树不同损失函数进行了讲解,包括SSE、WSSE、Canberra distance以及SSCE四种函数,并分别列举了相应的最佳参数以及预测值。

为检测不同损失函数下模型的预测效果,Zhiyu Quan对于基于不同损失函数的决策树分别进行了实例检验和模拟数据集检验。在实例检验中发现WSSE决策树和Canberra决策树模型在分离非零变量和零变量的效果上优于传统ANOVA决策树。在模拟数据集检验中发现Canberra模型预测效果最佳。

在得出上述结论后,Zhiyu Quan引申畅谈了该研究未来的应用方向,包括验证模型性能、作为集成方法学习器和扩展到索赔频率模型等。

最后,在提问交流环节,在线师生积极参与讨论,Zhiyu Quan耐心解答了同学们的疑问,并和同学们一起就损失函数的效果做了更加深入的探讨。

此后“统计大讲堂”系列将陆续推出更多精彩讲座,敬请关注。