我中心研究员李扬及学生就融合多源先验信息的异质性建模问题在《Bioinformatics》发表论文
2022-04-02
我中心研究员李扬及硕士研究生徐少东在《Bioinformatics》发表论文。该研究基于混合高斯图模型提出了新的癌症异质性统计建模方法,对差异表达和差异相互关系的异质性同时建模。与现有方法相比,该研究创新性地利用加权网络惩罚方法在异质性建模过程中融入多源先验信息,能够有效控制先验信息的不确定性。研究结果显示,该方法在异质性和重要标志物的识别方面都具有一定优势。
论文题目
Network-based cancer heterogeneity analysis incorporating multi-view of prior information
文章摘要
Motivation
Cancer genetic heterogeneity analysis has critical implications for tumour classification, response to therapy, and choice of biomarkers to guide personalized cancer medicine. However, existing heterogeneity analysis based solely on molecular profiling data usually suffers from a lack of information and has limited effectiveness. Many biomedical and life sciences databases have accumulated a substantial volume of meaningful biological information. They can provide additional information beyond molecular profiling data, yet pose challenges arising from potential noise and uncertainty.
Results
In this study, we aim to develop a more effective heterogeneity analysis method with the help of prior information. A network-based penalization technique is proposed to innovatively incorporate a multi-view of prior information from multiple databases, which accommodates heterogeneity attributed to both differential genes and gene relationships. To account for the fact that the prior information might not be fully credible, we propose a weighted strategy, where the weight is determined dependent on the data and can ensure that the present model is not excessively disturbed by incorrect information. Simulation and analysis of The Cancer Genome Atlas glioblastoma multiforme data demonstrate the practical applicability of the proposed method.
Availability and implementation
R code implementing the proposed method is available at
https://github.com/mengyunwu2020/PECM
作者介绍
李扬,中国人民大学统计学院教授、博士生导师,副院长、统计咨询研究中心主任;国际统计学会推选会员、中国商业统计学会副会长、北京生物医学统计与数据管理研究会监事长;主要从事相关型数据分析、模型选择与不确定性评价、潜变量建模、临床试验设计等领域研究,承担国家自然科学基金面上项目、全国统计科学研究重大项目等科研项目二十余项,发表JASA、JAMA IM、Biometrics、Biostatistics、统计研究等期刊论文七十余篇。
徐少东,中国人民大学统计学院在读硕士研究生,主要研究方向为高维数据分析、网络数据分析、聚类分析等。
马双鸽,耶鲁大学生物统计系教授,国际统计学会推选会员、美国统计学会会士。研究主要集中于生物统计、遗传流行病学、生存分析、高维数据分析等。担任JASA, AISM, Briefings in Bioinformatics等多个国际期刊副主编。已在Nature Genetics、JASA、The Annals of Statistics、Biometrika、Briefings in Bioinformatics等国际权威期刊发表论文数百篇。
吴梦云,上海财经大学统计与管理学院副教授。2013年获得中山大学概率论与数理统计博士学位,并于2016年8月至2018年7月在耶鲁大学生物统计系进行博士后研究。主要研究方向为高维数据变量选择、网络模型及整合分析等。目前,已在The Annals of Applied Statistics、Biometrics、Biostatistics、Statistics in Medicine、Bioinformatics等期刊发表多篇学术论文。入选上海市晨光计划、浦江人才以及启明星计划,主持国家自然科学青年基金和面上项目,以及全国统计科学研究重大项目。
论文发表截图