新闻公告

首页 / 新闻公告 / 中心新闻 /

新闻公告

尹建鑫 王晓军|统计与数据科学知识图谱构建与创新人才培养

2023-04-14

作者简介

尹建鑫,男,中国人民大学应用统计科学研究中心,统计学院副院长,副教授,博士生导师。

王晓军,女,中国人民大学应用统计科学研究中心,统计学院院长,教授,博士生导师。

统计与数据科学知识图谱构建与创新人才培养

【摘要】:统计学同时具有基础、应用与交叉三种学科属性。随着大数据、人工智能的兴起,“统计学”与“数据科学”成了近义词或同义词,在很多场合常常并称。由于数据形态、体量、质量发生丰富多样的变化,传统的数据获取、数据分析、统计推断、展示交流都需要适应大数据进行变革,从而要求统计学人才培养做出相应变革。随着研究前沿的不断推进,一方面,统计学理论将更加深入地融合概率论、最优化算法和复杂度理论;另一方面,统计学应用将更加深入地融合机器学习方法、大数据处理分析技术以及领域知识,并与经管、社科等各类学科进行交叉融合。在人才培养中,知识爆炸和教学容量有限的矛盾、知识广度和深度的矛盾以及学科领地认同与学科交叉边界逐渐模糊的矛盾等,对统计与数据科学创新人才培养提出了诸多挑战。面对挑战,应如何构建知识体系,使得教和学都能按图索骥?更重要的是,如何构建能力体系,使得学生拥有学习能力、自觉寻找路径、发现资源,实现自我完善、持续进步成长?本文在整理大量教材、前沿文献等资料的基础上,使用自然语言处理技术、大数据文本挖掘技术,结合专家判断,构建了统计学与数据科学知识图谱。在知识图谱的指引下,教学中很多问题,包括课程内容、先后修顺序、课程间衔接等问题都可以得到很好的重构,同时也为自主学习提供了方便。本文提出的构建知识体系、能力体系的方法模式同样适用于其他学科在面对大量新增周边领域知识的情况下更新构建知识体系与能力体系。特别适合拥抱数据科学新时代,在新工科、新文科、新医科、新农科建设中,为创新复合型人才培养提供参考。

【关键词】:统计学;数据科学;知识体系;能力体系

一、快速发展的学术前沿对教学提出挑战

统计学界有学者早在1997年就采用了“数据科学”的名称来表示本领域的新问题。[1]而数据科学在机器学习方面的大发展受到了来自概率论、随机过程、统计、计算物理、计算化学、信息学、计算机科学等众多领域的问题和解决方案的激发,进而显示出强大的生命力。[2]在经历几次起起落落的发展后,深度学习几乎在图像、视频、自然语言处理等很多非结构化数据分析领域都达到了当前的最优边界。统计学,一直以来都作为数据分析学科,面临着创新发展的挑战。简单、标准的数据分析的学习门槛越来越降低,甚至有可能被数字化、智能化系统直接嵌入。另外,不懂统计学原理,不运用统计学思维的方式而简单采用软件输出的结果也很危险。例如,近年来关于正确使用p值的大讨论。[3-5]计算机处理数据使用的模型越来越复杂,也越来越依赖算力资源。[6]这为统计学、数据科学的学科定位和发展提出了挑战和机遇。[7-12]挑战在于,统计学一方面要深入发展自己的理论与方法,不断突破理论难题;另一方面要广泛实现与其他学科的交叉融合,懂得业务问题,实现从数据到价值的转化。广度和深度的矛盾在科研领域并不明显,但面对有限的教学容量,便不可兼得。[13-16]机遇在于,如果能够积极拥抱领域内的数据科学,理论方法可以更加深入发展,交叉融合将产生巨大成效。[17-21]由于问题本身的数据密集型属性,在某些生物信息学领域,统计学方法甚至可以主导实验科学的研究走向。例如,在结合全基因组数据进行心脏病研究时,特定位点的发现可以由算法结果驱动指导,以致统计学者很罕见地以并列第一作者身份出现在像柳叶刀这类医学期刊的文章作者中。[22]社科类、管理类学科也越来越多地希望与统计学深度融合,培养既懂学科本身,又会数据分析的交叉复合型人才。从2014年起,在很多高校出现了与统计学、数据科学交叉融合的双学位本科、硕士项目。

一方面,统计学的理论前沿更加深入地融合了概率论、随机过程、最优化方法、复杂度理论、机器学习算法。从统计学顶级期刊和计算机顶级期刊近些年的研究主题看,对统计学和机器学习算法及其理论性质的研究已经十分深入,并呈深度融合的特点。比如在分布式数据上的统计推断问题,不仅关心它们的统计效率,如误差的收敛速度,还关心其计算效率、复杂度与最优性理论下界等。这必然要求对统计与数据科学学术人才的培养要更加注重数学基础的夯实,以及概率论、随机过程、经验过程、信息论、复杂度理论,包括计算复杂度和统计效率、理论下界等扎实的基础和宽阔的学术视野。但学术前沿增长过快,内容繁多,如何取其精华,择其关键,把最基本、最必要的知识点结合应用到教学中来,是一个迫切需要解决的问题。

另一方面,数字经济、数字政府、数字社会的快速发展,使得数据分析进入到经济、管理、社会科学等众多学科领域,占有越来越重要的地位,这就要求统计学与应用领域的知识深度融合。比如,商务统计领域的应用需要更懂业务,从流程、上下游业务、用户需求等各个方面,进而挖掘出问题,使用大数据、统计模型分析,驯服随机化,实现从数据到价值的转化;国土空间管理中也需要面对地理空间大数据进行深入分析,对政策等管理决策给出基于数据和实际的更加精准的评价和措施建议;面对非结构化数据,如文本、图像、网络等,在深度学习方法分析的基础上,如何再结合其他分析任务,需要建立统计模型。面对交叉领域中不做统计的人不懂统计,做统计的人不懂交叉领域的业务和问题,不能实现将问题转化成可供分析的统计问题,迫切需要培养跨领域的复合型人才。但将两个专业培养方案直接累加将增大培养负担,能否在课程层面实现交叉融通,挤掉水分,在有限的学分限制下,如何改造培养方案成为必须解决的问题。

总之,一方面,为了培养理论学术型人才,需要对统计与数据科学的培养方案做深度调整,尤其是涉及知识架构的升级转型,也要重构课程间的先后承接关系。另一方面,为了培养交叉复合型人才,双学位培养项目也要重新挑选和设计课程集合,开发融合型课程,才可能在“两性一度”的金课标准下,实现高阶性、创新性与挑战度的目标。为了解决以上两个问题,我们从底层的知识图谱构建做起,依靠专家研讨和文本挖掘算法,将学科知识体系重新梳理,结合最新的学术前沿,进行可扩展式的建构。将所有的知识点变成一张地图,不同课程之间形成可以有交叉的聚类,课程之间的起承转合关系在知识图谱下一目了然。另外,知识图谱有助于学生总结梳理知识脉络,可以为学生自主学习和自由探索提供一张“寻宝图”,预期在培育学生的自学能力、逻辑思维能力和独立探索能力方面有较好的效果。

本文的以下章节安排如下:第二部分介绍知识图谱的建立方法,特别是基于文本挖掘和自然语言处理技术的方法;第三部分介绍教学模式的重塑与学习模式的转变;最后是本文的总结与展望。

二、用大数据方法梳理统计与数据科学的知识图谱

对于较为成熟学科的知识点梳理和知识地图的建立,通常采用专家研讨法就能取得理想效果。然而,在大数据时代,数据科学迅猛发展,新的大数据统计方法不断涌现,数据科学在不同领域的延伸和发展产生了新的应用交叉,以模仿人类自主学习系统为目标的人工智能和侧重于在不确定性下推理和决策的统计学方法不断融合,产生了很多新的理论方法。在统计与数据科学人才培养中,原有课程体系的知识点不断扩展,模型推演和统计计算工具不断更新;新的大数据技术课程逐步加入培养方案,“数据结构与算法”“大数据并行计算”“分布式系统与云计算”“算法设计分析”“机器学习”“深度学习”“强化学习”“因果推断”等等,新的课程内容不断叠加扩展。那么,如何系统梳理大数据背景下统计与数据科学本科人才培养所需的知识体系?如何在有限的课堂学时合理安排课程内容,突出专业核心,扩展专业选修,理顺专业知识点的先后顺序,解决不同课程教学内容衔接不畅和重叠冗余的问题?

基于专业思考,我们认为可以开发一套模型算法,从统计与数据科学系列教材及相关前沿文献中收集知识点,通过知识点文本数据挖掘,寻找不同知识点之间的相依结构,形成知识地图。肖明等利用模型算法对统计学热门主题进行了挖掘分析。[23]Lai J 和Yin J指出,用于挖掘的“数据矿藏”资源可以源自教科书文本和学术论文摘要文本[24]。

本文选择概率论、数理统计、非参数统计、离散数据分析、凸优化、统计计算、深度学习和强化学习等8门课程共10本教科书的文本作为数据集。采用教材给出的名词索引目录和论文的关键词搜索核心知识点。在此基础上,基于词共现数据,利用GloVe方法学习出各个概念词的嵌入向量(Embedding)[25],然后使用矩阵图模型在词向量上学习词的条件独立关系,构成知识网络。该算法称为Matrix-GloVe,具体流程如图1所示。

基于Matrix-GloVe算法,可以获得在不同课程中知识点之间的相互关联关系。通过关联关系,可以找出基础核心知识点和重要知识点,有助于在课程讲授和学习中加强基础,强化核心。最后,将同一知识点归集在一门课程中,梳理课程中知识点的前后顺序,建立知识图谱。

为了便于文本挖掘处理,我们采用英文文本,通过对10本统计与数据科学经典教科书的文本分析,可以得出概率论、凸优化、深度学习、强化学习之间的知识点有内在关联。以数理统计中“统计量”这个概念为例,其与很多其他的统计量如卡方、F、皮尔森等有直接关联;“贝叶斯”与“经验贝叶斯”“贝叶斯因子”“贝叶斯法则”紧密相连;“矩阵补全”与“样本”“分布”“牛顿(下降)”等概念相关联。如图2和下页图3所示。

图4给出了《概率论》《凸优化》《深度学习》《强化学习》四本教科书在知识概念层级相互依赖关系的实例。下页图5给出了一个更大的涉及概率论、数理统计、多元统计、时间序列、凸优化、深度学习、强化学习、因果推断等8门课之间的知识网络。

从结果看,一方面,为了更好地讲授和学习深度学习、强化学习等课程,需要在传统的概率论和统计类课程中加强凸优化、多元统计等内容。另一方面,对传统统计概念和内容的讲授应该结合大数据统计前沿做适当引申,引导学生产生对前沿问题的学习兴趣。

三、知识图谱下“教”与“学”模式的重塑

以“统计与数据科学”知识图谱为依据,结合专家经验和专家研讨会咨询建议,凝练专业教育的核心知识点,通过召开课程主讲教师教学研讨会和沟通会,规划知识点“聚类”归属的课程集,落实知识图谱在每门课程中的布局,明确每门课程的基础核心内容和扩展范围,理顺课程之间的关系,实现不同课程教学内容的有序衔接和逻辑关联,去除相同或类似教学内容在不同课程中的重复和冗余。同时,在原有课程基础上,新增大数据统计和人工智能前沿课程,使课程体系更加合理,既强化专业基础和核心,又重视前沿引导。另外,通过定期更新的知识图谱,可以动态更新大数据统计的核心知识点库,有效辅助每年教学内容的更新升级。

除了统计与数据科学专门人才,在大数据背景下,“统计与数据科学+”交叉复合人才也是国家重要的战略人才。为此,中国人民大学统计学院与应用经济学院、商学院、公共管理学院合作共建了双主学位项目“应用经济-数据科学”实验班,以及“统计学-公共管理学”“营销管理-数据科学”等双学位交叉复合培养项目。对于“统计与数据科学+”系列的复合交叉人才培养,如果简单拼接两个专业的课程,难以做到交叉融合,因此需要从两个学科的知识图谱出发,找到共同点,将知识点群接近的部分做融合,设计新的融合课程。这样既能实现学分精减,有效利用教学时间,也能激发学科交叉融合的力量,激发学生的学习兴趣。同时,也有助于将数据科学方法融入到解决实际问题中,并在运用方法中开发在实际领域中有用的新方法。通过融合课程,可以从培养方案上打通大类,实现更加宽广的知识视野培养目标。

在人才培养上,Xuming He等[26]指出,我们必须培养在批判性思维、建模、计算和交流等方面有重要技能的下一代统计学家和数据科学家。因此,在教学中,借助知识图谱,可以定期升级培养方案,突出基础核心内容,突出对学生基础理论和方法训练,强化学生的动手能力,提升学生从数据获取到模型构建、编程运算、优化计算、推断和决策以及沟通交流和结果呈现等各方面的能力,强化学生以数据为中心的批判性思维能力。同时,知识图谱也有助于学生总结梳理知识脉络,更好地掌握专业知识体系。

在教学模式上,应该采用“问题导向,数据驱动”的新型教学模式,改变“模型为主,实例为辅”的传统教学模式。同时增加研究型课程,让学生在掌握统计理论与方法的同时,形成发现、探究和解决实际问题的能力;以案例和实践教学形式,采用实际数据,培养学生从问题出发对实际数据的分析能力;同时,通过建立实习实践基地,为学生的专业实践提供保障;鼓励学生参加数据挖掘小组,组队学习,积极参加学科竞赛、科研项目,自主科研探索。

四、总结与展望

面对飞速发展的数据科学,我们提出建立统计与数据科学知识图谱的重要性,以及在知识图谱下如何重塑“教”与“学”模式的思考和实践。我们认为,对于统计与数据科学的人才培养,一方面要注重基础能力的培养,加强数学、理论、模型、算法的训练,同时要结合数据科学发展前沿,不断激发学生的学习兴趣,丰富教学内容;另一方面,在培养“统计与数据科学+”复合交叉型人才时,要从底层打通知识图谱,构建全新的交叉融合课程,同时结合领域的实际问题,创新方法和应用案例。在人才培养中,要贯彻立德树人的根本任务,统计与数据科学专业人才,必须在社会主义核心价值观引领下培育科学家精神、创新能力和批判性思维,实现价值引领、知识传授和能力培养的有机融合。

需要说明的是,本文从大量学科文本资料出发,基于自然语言处理与文本挖掘模型对知识网络构建的探讨,对于学科知识体系梳理是一个有益的尝试。文中尚存若干值得改进的地方,需要进行下一步更深入的研究。例如,本文用于构建知识点的文本概念来源于教材的索引目录和相关文献摘要或关键词,这种做法对知识点的覆盖不够全面准确,未来可以结合命名实体识别技术,对概念词和新词实现更加精准的发现,还可以结合更精确的技术改进模型,进行更精确的知识网络学习,获得更有实际指导意义的研究结果。