新闻公告

首页 / 新闻公告 / 最新通知 /

新闻公告

会议通知 | 复杂数据驱动的统计学前沿研究

2024-11-17

概览

周勇,华东师范大学,教授

复杂商务场景下的

大数据技术与统计学习理论与方法

史兴杰,华东师范大学,副教授

空间转录组学数据的坐标对齐与迁移

张澍一,华东师范大学,助理教授

Distributed algorithms for 

U-statistics-based

empirical risk minimization

时间及地点

时间:2024年11月19日15:00-17:00

地点:明德主楼1016

主持人

黄辉,中国人民大学统计学院教授

具体信息

1

主讲人

1.png

周勇

报告题目

复杂商务场景下的大数据技术与统计学习理论与方法

摘要

大规模复杂商务场景离不开电子商务、互联网金融和移动支付,而这些商业活动会产生大量有价值的复杂数据,这些数据的有效处理和分析涉及到运用大数据方法挖掘数据信息和预测未来市场走势等以提升商业效益和效率,以及商务决策的科学性。复杂商务场景下数据的复杂性,为统计学习与管理决策带来了机遇和挑战。处理大数据的手段,共分为两大类,一种是人工智能和机器学习方法,一种是发展新的统计方法,两者有区别也有联系。然而机器学习得到的结果往往缺乏可解释性,同时也很难进行统计推断,例如显著性检验及区间估计等,但人工智能技术可以实现复杂问题的社会计算,统计机器学习成为必然。本讲座介绍我们最近三年在大数据分布计算、半监督学习、隐私保护相关研究成果,及其在金融、社会学及医疗管理等领域的相关研究。

个人简介

周勇教授,国家杰出青年基金获得者,教育部长江学者特聘教授,中国科学院百人计划入选者,国务院政府特殊津贴专家,“新世纪百千万人才工程”国家级人选,国际数理统计学会(IMS)会士。华东师范大学经管学部教授,统计学院院长,统计交叉科学研究院院长。曾任国务院学位委员会第七届统计学科评议组成员,教育部应用统计专业硕士教学指导委员会委员。现任中国优选法统筹法与经济数学研究会副理事长,中国管理科学学会常务理事。科技部重点研发计划项目首席科学家。

周勇教授主要从事大数据分析与建模、金融计量、风险管理、计量经济学、统计理论和方法等科学研究工作,取得许多有重要学术价值和影响的研究成果。先后承担并完成国家自然科学基金项目,国家杰出青年基金,自然科学基金委重点项目等科学项目10余项,科技部重点研发计划项目1项(首席科学家),曾获得省部级奖励二项。在包括国际顶级期刊《The Annals of Statistics》、《Journal of The American Statistical Association》,《Biometrika》,《JRSSB》及计量经济学顶刊《Journal of Econometrics》和《Journal of Business & Economic Statistics》《管理科学学报》等学术杂志上发表学术论文近200余篇。

2

主讲人

2.png

史兴杰

报告题目

空间转录组学数据的坐标对齐与迁移

摘要

空间组学技术的发展使我们能够更深入地理解疾病和发育过程。然而,由于不同样本的空间坐标存在差异,直接整合和比较不同切片的样本存在困难。为了克服这一挑战,我们提出了一种新的坐标对齐方法,可以实现跨组织功能单位、个体、技术平台和组学数据的样本对齐。我们利用多元高斯过程回归实现了高效稳健的组学数据跨坐标系迁移。通过多切片整合分析验证了该方法的有效性和在各类下游分析中的应用潜力,同时基于肝脏CosMx数据构建了肝小叶的基因空间图谱。

个人简介

史兴杰,华东师范大学统计学院、统计交叉科学研究院副教授。2014年获得上海财经大学统计学博士学位,期间在耶鲁大学联合培养。主要研究数据融合的统计机器学习方法、高维大数据统计计算。在《Nucleic Acids Research》、《Nature Communications》、《Bioinformatics》等期刊发表学术论文30余篇,主持国家自然科学基金2项。国际统计学会当选会员、中国现场统计研究会理事。

3

主讲人

3.png

张澍一

报告题目

Distributed algorithms for U-statistics-based empirical risk minimization

摘要

Empirical risk minimization, where the underlying loss function depends on a pair of data points, covers a wide range of application areas in statistics including pairwise ranking and survival analysis. The common empirical risk estimator obtained by averaging values of a loss function over all possible pairs of observations is essentially a U-statistic. One well-known problem with minimizing U-statistic type empirical risks, is that the computational complexity of U-statistics increases quadratically with the sample size. When faced with big data, this poses computational challenges as the colossal number of observation pairs virtually prohibits centralized computing to be performed on a single machine. This paper addresses this problem by developing two computationally and statistically efficient methods based on the divide-and-conquer strategy on a decentralized computing system, whereby the data are distributed among machines to perform the tasks. One of these methods is based on a surrogate of the empirical risk, while the other method extends the one-step updating scheme in classical M-estimation to the case of pairwise loss. We show that the proposed estimators are as asymptotically efficient as the benchmark global U-estimator obtained under centralized computing. As well, we introduce two distributed iterative algorithms to facilitate the implementation of the proposed methods, and conduct extensive numerical experiments to demonstrate their merit. 

个人简介

张澍一,北京大学统计学博士,哈佛大学统计系博士后。主要研究方向为大数据分布式计算、数据融合、高维检验、环境统计。在Annals of Statistics、Journal of Machine Learning Research等期刊发表论文十余篇,主持国家自然科学基金青年项目、教育部人文社会科学研究一般项目。入选上海市领军人才(青年海外)、上海市浦江人才计划,担任中国现场统计研究会因果推断分会理事、英文期刊Environmetrics副主编。