news center

168篇文章的秘密——多组学的兴起

        2018年,是基迪奥合作客户文章大丰收的一年,也是多组学兴起的一年。从我们收集到的客户18年发表的文章中,随机抽取150篇,其中涉及多个组学的文章有30多篇,影响因子显著高于单组学文章(P<0.01),而且,多组学的文章数量呈×2.0倍速增长的趋势。

        这些多组学文章主要围绕转录组,涉及+基因组、DNA甲基化、翻译组、非编码RNA、蛋白组、代谢组等多组学的整合分析,此外,也有蛋白+代谢、细菌16S+真菌ITS等多组学分析。

        随着技术发展,我们可以同时进行多个水平生物指标的检测,如对同一系列样品进行基因表达量和代谢物丰度两个水平的检测。同时,科学的进步也让我们认识到分子并不是独立的行使生物学功能,它们之间有着复杂精妙的关联调控网络。所以,多组学的分析将更有利于系统科学的揭示现象背后的分子机制。

        知道了多组学文章的崛起和IF优势,如何进行不同组学数据的整合分析呢?

        我们知道,miRNA与mRNA有靶向关系,lnc/circRNA与mRNA有CeRNA模型,那么转录+代谢?蛋白+代谢?16S+ITS呢?是不是就只能想到pearson、spearman相关系数了。其实,还有一种模型可以协助我们进行更深入的数据挖掘和信息提取。

        我们分享一种多组学整合分析O2PLS模型,和大家聊聊它的前世今生故事。

O2PLS背景

        O2PLS(Two-way Orthogonal Partial Least Squares)模型是对两个数据矩阵(两组学)进行统计建模,预测两个矩阵中有潜在关联的数据集合(如有关联的基因和代谢物集合),是OPLS模型延伸而来。最初于2003年由Trygg团队创建,可以使用simca-P软件(收费)或者Metlab一类非常不亲民的软件分析。

        即使如此,到目前Glgoo学术中相关的文章数量仍近1000(图1)。后来,Bouhaddani团队于2016年对模型进行评估解析,并于2018年末正式发表了基于R语言OmicsPLS包的建模方法。目测R语言的亲民路线和多组学的发展,会使O2PLS在广阔天地大有作为。

O2PLS详解

        不同于pearson、spearman相关系数两两配对的计算形式,如计算每个基因与每个代谢物的相关系数,O2PLS是基于两组学的数据总和,可以理解为考虑组学的总变异,从数据的整体角度,解析数据中噪音、关联等信息。

该模型通过计算,将每个组学的数据都分解为三个部分(图2),即关联部分(joint part,两组学共同对应变化,即有关联)、正交部分(Orthogonal part,两组学彼此正交,即互不相关)、噪音部分(noisepart,冗余信息)。各部分对总变异的解释程度以R2表示,值越高表示模型的解释能力越好。模型的过拟合和不足都会降低R2。

        其中,关联和正交部分包含一定数量的组分(component,类似PCA分析的主成分PC1、PC2)。每部分所包含的组分个数采用交叉验证法(cross-validation)评估设定。交叉验证法通过多次预建模,选择预测误差(predicti)最小的模型进行后续分析。

        最适模型中,载荷值(loading value)表示变量(代谢物/基因)在各组分的解释能力(即贡献度),载荷值绝对值的大小表示关联的强弱。选取joint part中的数据即可绘制载荷图(图3),图中横轴和纵轴为组分1和组分2,红色三角形表示基因,蓝色正方形表示代谢物,离原点更远的基因和代谢物关联更强。

 

O2PLS应用

        O2PLS模型适用于两组学数据的关联分析,两组学的样本一一对应,数量一致即可,可广泛应用于转录+代谢,微生物+代谢等关联分析。

来自http://www.sohu.com/a/291262230_278730

图一
图2 O2PLS模型示意图
图3 文献基因+代谢物载荷图示例
Scroll Up