学术交流

首页 / 学术交流 / 学术讲座 /

学术交流

“统计大讲堂”第159讲回顾:基于梯度匹配的数据集压缩方法

2021-06-16

6月14日下午,“统计大讲堂”系列讲座第159讲举行。本次讲座采取在线会议的方式,邀请爱丁堡大学信息学院赵波博士作题为“基于梯度匹配的数据集压缩方法”的报告。统计学院李静萍、王睿等老师参加本次讲座。讲座由中国人民大学统计学院老师、应用统计研究中心研究员白琰冰主持。

白琰冰首先介绍了主讲人的相关信息。赵波现为英国爱丁堡大学信息学院博士生。他将于2022年获得爱丁堡大学博士学位。赵波曾在美国洛杉矶 snapchat 公司和商汤科技担任见习研究员。赵波一直从事机器学习和计算机视觉等方面的研究,相关成果在ICLR、ICML等机器学习顶会发表,同时赵波还担任NeurIPS 和CVPR等顶会的审稿人。

9b7a18a1584d4a55ad2b36c130919295.png

赵波首先介绍了课题的研究背景。在深度学习时代,训练深度模型的计算量平均每3个月增长一倍,比每2年增长一倍的摩尔定律还要快很多。巨大的计算量需要使用大量的计算资源和能量。研究如何降低计算量而保持模型性能是机器学习领域重要的研究内容。本研究希望通过压缩训练数据规模来降低计算量。

基于对上述问题的思考和研究,赵波提出了基于梯度匹配的数据集压缩方法。方法的基本思想是将一个大数据T压缩得到的小数据集S,在给定任意模型 theta 时,数据集T和S产生近似的梯度。

3635cb8fbfa241f4ba49dca71bb6cfca.png


进一步,赵波设计了一种有效的数据增强方法,使得合成的小数据集S能够有效地与数据增强结合来训练得到更好的模型。这一方法的基本思想是对训练过程中每次采样的一组真实数据块和合成数据块使用同一个参数化的数据增强函数,从而使得合成数据能够有效地从真实数据中学习更多的先验知识。

a970fcf662b34400a05aa47287d42e53.png

最后赵波给出了在5个计算机视觉数据集上的实验结果,以及该方法在增量学习和网络结构搜索中的应用。

在提问交流环节,赵波耐心地对关于该方法的应用场景(如文本,图像,语音,视频,分类,检测,分割等任务)和局限性等问题做出了详细的回答