新闻公告

首页 / 新闻公告 / 最新通知 /

新闻公告

大模型基础理论 | 2025 X智能大会 & 第18届中国R会议

2025-09-15

2025 X 智能大会暨第18届中国R会议将于2025年10月17日至19日在北京会议中心举行。本次会议聚焦大模型技术的前沿进展,及其在各领域的创新探索与实际应用。会议内容涵盖蒙特卡洛视角下的AI革命、扩散大语言模型、多模态理解与生成、Agent形态演变、Agent产业应用、大模型基础理论、AI4Science、具身智能、生物医药统计与大模型、AI赋能健康统计等重要方向。

欢迎访问以下链接或扫描二维码,报名本次会议!

链接:https://www.x-agi.cc/register.html

二维码:


图片

下面为您奉上本次2025 X智能大会 & 第18届中国R会议 大模型基础理论 的介绍。

会场主题

本次会议邀请四位嘉宾探讨大模型基础理论的最新研究进展。具体而言,将分别关注大模型的推理机制分析,随机梯度下降算法的泛化性能,大模型对齐中的弱到强泛化机理,以及一种新型高效的零阶混合优化器。

会场主席

本会场主席:滕佳烨

个人简介:滕佳烨,上海财经大学统计与数据科学学院助理教授。主要研究方向是理论机器学习,包括泛化理论、共形预测等。博士毕业于清华大学交叉信息研究院,并曾前往普林斯顿大学访问。曾荣获清华大学优秀毕业生、清华大学优秀博士论文等荣誉,并曾获得上海市 2024 “科技创新行动计划” 启明星培育(扬帆专项)资助,以及2025 CCF理论计算机科学博士学位论文激励计划(提名),为人工智能研讨班FAI-Seminar的筹办人。他的主页为www.tengjiaye.com。

会场内容

大模型推理机制分析

刘勇

嘉宾简介:

刘勇,中国人民大学,长聘副教授,博士生导师,国家级高层次青年人才。长期从事机器学习基础理论研究,共发表论文100余篇,其中以第一作者/通讯作者发表顶级期刊和会议论文近50篇,涵盖机器学习领域顶级期刊JMLR、IEEE TPAMI、Artificial Intelligence和顶级会议ICML、NeurIPS等。曾获中国人民大学“杰出学者”、中国科学院“青年创新促进会”成员、中国科学院信息工程研究所“引进优青”等称号。主持/参与国家自然科学面上/基金青年、科技部重点研发、北京市科技计划中央引导地方专项、北京市面上项目等项目。

内容摘要:

近年来,大模型推理算法在效率与性能方面实现显著突破,推理速度与准确率得以大幅提升。但算法创新的热潮背后,对大模型推理内在机制的系统性探究仍显不足,致使其推理能力的认知存在诸多盲区。本报告从 “外部慢思考” 与 “内部慢思考” 双维度切入,着重剖析大模型外部推理的能力边界,以及长思维链对内部推理机制的影响,旨在为后续推理算法的优化设计夯实理论基础,突破技术桎梏,推动大模型推理能力实现新的跨越。

随机梯度下降算法在高维回归问题中正则效应与泛化性能分析

方聪

嘉宾简介:

方聪,北京大学智能学院担任助理教授(博导)、研究员、博雅青年学者。方聪于2019年在北京大学获得博士学位,先后在普林斯顿大学和宾夕法尼亚大学进行博士后研究。方聪的主要研究方向是机器学习基础理论与算法,已发表包括PNAS、AoS、IEEE T.IT、JMLR、COLT、NeurIPS、PIEEE 等30余篇顶级期刊与会议论文,担任机器学习顶级会议NeurIPS、ICML领域主席(Area Chair),团队获得2023年度吴文俊人工智能自然科学奖一等奖。

内容摘要:

随机梯度下降算法是求解机器学习问题中的常见算法。在高维学习问题中,随机梯度下降算法的迭代次数往往低于模型参数量,算法对于模型的产生隐式正则效应是模型具有良好泛化的主要原因。本次讲座,我们将研究随机梯度下降算法在不同学习情境下求解简单模型的泛化性能,并进行定量比较。我们将分别讨论算法在不同学习尺度(即样本数与问题维度不同依赖关系)与协变量偏移条件下的学习效率,尝试理解算法对于学习问题的适应性与涌现发生的条件。理论将启发设计内存节约大模型训练算法,在GPT2等标准测试平台取得更优性能。

大模型对齐中的弱到强泛化机理研究

汪子乔

嘉宾简介:

汪子乔,同济大学计算机科学与技术学院助理教授。研究方向为机器学习基础理论、统计学习原理以及信息论。近几年主要成果发表在人工智能、机器学习及数据挖掘等相关领域国际顶级会议,涵盖NeurIPS、ICML、ICLR、UAI、AAAI、KDD、WWW等,博士论文被提名2025年加拿大人工智能协会最佳博士论文奖,以及提名2025年渥太华大学总督学术奖章和Pierre Laberge论文奖。曾担任IEEE North American School of Information Theory (NASIT) 2024联合程序主席。

内容摘要:

在当前大模型对齐研究中,一个备受关注的现象是弱到强泛化(Weak-to-Strong Generalization, W2SG),即通过弱教师模型生成伪标签,指导强学生模型进行训练,从而实现学生在目标任务中反超教师的现象。尽管这一现象已被实证观察到,但其理论机理仍未被充分揭示。本报告围绕W2SG的理论分析展开,重点在于用Bregman散度下的广义偏差-方差分解刻画学生与教师之间的风险差异,首次在不依赖假设空间凸性这一强假设的前提下,推导出基于“预测不匹配”的W2SG不等式。我们进一步理论证明对于容量足够大的学生模型,W2SG现象更有可能出现。与此同时,我们发现适度的正则化或早停对于避免学生模型过度拟合教师标签是必要的。此外,在W2SG损失函数选择方面,我们理论上比较了标准交叉熵与反向交叉熵在W2SG场景下的表现,指出后者在面对教师预测不确定性时更加稳健。最后,我们通过实证分析验证了上述理论发现,包括学生模型容量对W2SG的影响,以及来自多个教师模型的平均监督对提升学生性能的作用。

Efficient and Fast Training with new Zero-th order Hybrid Optimizer

Ziye Ma

Speaker:

The speaker Ziye Ma is currently a presidential assistant professor in the computer science department at the City University of Hong Kong. Prior to this, he completed his PhD in the EECS department at UC Berkeley under the guidance of Somayeh Sojoudi and Javad Lavaei. His research is mostly focused on machine learning theory and AI foundation, with a particular emphasis on non-convex optimization. His works have received several oral designations in top ML conferences, and he has received the early career scheme from research grant council (RGC) of Hong Kong.

Abstract:

Optimizing large-scale nonconvex problems, common in machine learning, demands balancing rapid convergence with computational efficiency. First-order (FO) stochastic methods like SVRG provide fast convergence and good generalization but incur high costs due to full-batch gradients in large models. Conversely, zeroth-order (ZO) algorithms reduce this burden using estimated gradients, yet their slow convergence in high-dimensional settings limits practicality. We introduce VAMO (VAriance-reduced Mixed-gradient Optimizer), a stochastic variance-reduced method combining FO mini-batch gradients with lightweight ZO finite-difference probes under an SVRG-style framework. VAMO's hybrid design uses a two-point ZO estimator to achieve a dimension-agnostic convergence rate of $\mathcal{O}(1/T + 1/b)$, where $T$ is the number of iterations and $b$ is the batch-size, surpassing the dimension-dependent slowdown of purely ZO methods and significantly improving over SGD's $\mathcal{O}(1/\sqrt{T})$ rate. Additionally, we propose a multi-point ZO variant that mitigates the $O(1/b)$ error by adjusting number of estimation points to balance convergence and cost, making it ideal for a whole range of computationally constrained scenarios. Experiments including traditional neural network training and LLM finetuning show VAMO outperforms established FO and ZO methods, offering a faster, more flexible option for improved efficiency.

关于会议

本次大会由中国人民大学应用统计科学研究中心、中国人民大学统计学院、统计之都与中国商业统计学会人工智能分会主办,中国人民大学健康大数据研究院协办,并获得明汯投资、宽德投资、Will和Quantverse(数启寰宇)的赞助支持。我们诚挚邀请您来参会,共话智能技术发展前沿!

更多日程信息,详见会议通知:2025 X智能大会 & 第18届中国R会议通知

欢迎进入2025 X智能大会 & 第18届中国R会议官网,获取更多会议信息!

链接:https://www.x-agi.cc/index.html

二维码:

联系方式

公众号:统计之都

会议邮箱:xagi-2025@cosx.org