通讯 | “统计大讲堂”系列讲座第一百二十讲顺利举行
2020-06-12
6月10日下午,“统计大讲堂”第一百二十讲——“青椒说”系列讲座第二期顺利举行。讲座以“车联网大数据的自动特征工程:从精算科学和风险管理视角”为主题,由统计学院讲师高光远主讲。此次讲座为线上讲座,众多师生通过腾讯会议参与研讨。统计学院老师、中心研究员孟生旺、李扬、李静萍、白琰冰参加讲座。本次讲座由统计学院教授肖争艳主持。
肖争艳介绍了报告人高光远的基本信息。高光远是中国人民大学统计学院风险管理与精算系讲师。主要研究领域包括非寿险准备金评估方法、贝叶斯统计和MCMC、车险定价模型、copula、车联网大数据分析。在绝大部分精算顶尖期刊发表多篇论文,如《ASTIN Bulletin》、《Insurance:Mathematics and Economics》等;由Springer出版独著《Bayesian Claims Reserving Methods in Non-life Insurance with Stan》;参与编著多本教材。主持国家自科青年项目、Society of Actuaries 科研项目等;参与国家社科重大项目。
高光远首先介绍了车联网大数据和自动特征工程的概况。他说明了车联网大数据属于记录用户行为的数据,它被广泛应用于汽车设计、保险产品优化等领域。特征工程即为对这些大数据进行特征提取的工程,而人工特征工程中数据的选取往往基于人的经验判断,在某种意义上不是最优。由此他引出了利用一些深度学习的模型来使模型自动提取特征和同时进行回归的问题。报告涉及的自动特征工程立足于风险管理与精算,利用车联网大数据,侧重于提高风险定价的准确性。
高光远指出,对于如此庞大的数据可以用一些方法进行数据压缩,例如使用分布来描述样本的特征,将数据压缩成一个矩阵。随后他提供了多种思路,利用深度学习在回归的同时做自动特征工程,介绍了密连接神经网络和卷积神经网络自动特征工程以及回归过程的体现,得到了CNN与DNN两种自动特征工程。他还将传统的风险因子与车联网大数据结合起来,将先验估计调整成GLM中的估计,考虑他们之间的交互作用。
在交流互动环节,在线师生积极参与。高光远就大家提出的“矩阵的大小对最后的结果是否有影响”、“建模时公式中的参数特征”等问题,与老师同学们进行了更加深入的讨论。
此次讲座体现了数据科学中的深度学习等方法在大数据特征提取中的有效运用。此后统计大讲堂——“青椒说”专题系列还将陆续推出多场讲座,敬请期待。