“统计大讲堂”系列讲座第139讲 举行
2020-12-17
12月11日下午,“统计大讲堂”系列讲座第一百三十九讲—“数据科学专题”第一讲举行。本次讲座采取在线会议的方式,RStusio软件工程师谢益辉受邀作题为“随机漫步十八年的傻瓜”的讲座,统计学院教师白琰冰参加。讲座由统计学院教授、应用统计科学研究中心研究员吕晓玲主持。
吕晓玲首先介绍了报告人的相关信息。谢益辉是中国人民大学统计学院本科及硕士优秀毕业生、爱荷华州立大学统计学博士,现为RStudio软件工程师。他是中国数据科学的先行者之一,于十几年前创办了统计之都论坛和中国R语言会议;他编写的R软件包以及基于他的R包开发的R包在全世界被广泛使用。
谢益辉首先分享了其十八年的学习和工作经历中与数据科学直接或间接相关的经验和观察。他回顾了四年大学本科生活、三年硕博生活、三年留学经历和七年工作经历,用幽默诙谐的语言讲述了这十八年中发生的“随机事件”以及他从事件中积累下来的经验。从非典期间钻研编程和偶然收到一份免费建站的传单开始,他便对做网站产生了极大的兴趣,并在大三时搭建了统计之都论坛。基于兴趣与专长,他开始专攻写代码,并在硕博期间写了人生第一个R包animation来以动画的形式展示数学概念。在硕博期间,他还积极参加学术会议,尤其是国际会议,并于2008年发起了中国R语言会议。第13届中国R会议将于今年12月19日-20日召开,并以线上会议和线下会议相结合的方式举办。谢益辉认为,他的经历和从经历中收获的经验都具有随机性,正如《随机漫步的傻瓜》一书中提到的“假如历史以另一种方式呈现”,别人的经验可借鉴但不可复制。
谢益辉对随机性作了进一步阐释。从个人经历谈及统计推断和统计思维,他指出,任何事情背后都具有确定性因素和随机性因素:进行统计推断和选择统计方法要在新的数据集和新的设定下检验是否仍有效,也即是否能经得起随机性的考验。他以Q-Q图和置信区间为例,形象地解释了数据或图表背后的随机性,并再次强调随机性的重要性。
谢益辉以人工智能的讨论和统计显著性的误读为例,介绍了关于数据科学与统计学的“寻常路与逆行”。他还介绍了数据科学家在工作中需要的一些软件技能,例如营销中的标题设计、格式排版,网页技术等。关于如何掌控随机性,他用古代诗词对回归方程做了解释,并指出要在生活中确定随机项的存在并减弱随机项的影响。
在交流讨论环节,在线师生积极提问。谢益辉对R包的编写和个人网页的搭建等问题作了进一步解答和建议。