3.2 实验结果及分析
为了验证APIN网络的有效性,我们通过对比经典的蛋白质复合物识别算法在不同网络上的识别结果来评估APIN网络的性能。由 Brohee[136]和Vlasblom[137]的分析表明,MCL比其他算法具有更好的鲁棒性和容噪性,我们对比了MCL在静态蛋白质网络(SPIN)、时序网络(TC-PIN)[113]和APIN的性能。
3.2.1 实验数据
我们下载了DIP数据库20101010的酵母相互作用网络[138],去除了网络中的自相互作用和重复相互作用后,SPIN网络包含了5093个蛋白质和24743对相互作用。
GSE3431是GEO数据库[139]中酵母三个连续代谢周期的基因表达数据,该基因表达数据对应的6777个基因产物覆盖了静态蛋白质网络中95%的蛋白质。三个连续代谢周期的基因表达数据包含36个时刻的基因表达谱,其中每个周期包含12个时刻的基因表达谱,相邻时刻间隔约25min。由于基因表达数据存在不可避免的噪声,因此我们使用一个周期的基因表达数据,其中该周期每个时刻的基因表达值为三个周期对应时刻基因表达值的平均值。
3.2.2 网络构建
在APIN的构建过程中,1142个蛋白质的活性时刻点不能从它们的表达曲线推导出来,247个蛋白质在GSE3431中没有表达曲线。因为GSE3431中两个相邻的时刻间隔相当长的时间,而有些蛋白质只在特定的环境下处于活性状态,所以这些在GSE3431中判断不出活性的蛋白质可能在其他的基因表达实验中体现活性。APIN网络中未包含这些蛋白质,在最终的APIN网络中,因为与邻居节点没有公共活性时刻点,511个蛋白质变为孤立节点。因此,基于GSE3431基因表达数据和PIN网络构建的APIN网络包含8355对相互作用、3193个蛋白质。在APIN中,每对相互作用都有一个活性时刻点集合,从而APIN可以表示为12个时刻下的子网。在每个子网中,蛋白质都同时处于活性状态。
时序网络(TC-PIN)采用了全局阈值0.7,因为一个细胞周期的基因表达数据包含12个时刻点,因此TC-PIN包含12个子网。
3.2.3 与已知蛋白质复合物比较
MCL分别在APIN、TC-PIN和PIN网络上识别蛋白质复合物。对于TC-PIN和APIN,MCL在其每个子网上识别蛋白质复合物,合并12个子网的预测结果,丢弃重复的蛋白质复合物。
已知的蛋白质复合物集合来自Pu等人在Nucleic Acids Research杂志发表的文献[140],其中包括408个蛋白质复合物。我们比较了预测的蛋白质复合物和已知的蛋白质复合物的完美匹配个数、敏感性(Sensitivity,Sn)、特异性(Specificity,Sp)和综合指标(f-measure,F)。
一个算法识别的蛋白质复合物(Predicted Complex,Pc)与一个已知的蛋白质复合物(Known Complex,Kc)之间的匹配程度OS(Pc, Kc)的计算公式[17, 29]如下所示:
其中,|VPc|和|VKc|分别表示预测的蛋白质复合物Pc内的蛋白质数目和已知的蛋白质复合物Kc内的蛋白质数目,i表示Pc和Kc内交叠的蛋白质复合物的数目。
如果说蛋白质复合物Pc与Kc匹配,那么是指它们的匹配程度OS(Pc, Kc)超过了给定的阈值。一般情况下,阈值取0.2。因此,如果一个预测的蛋白质复合物与某个已知蛋白质复合物的匹配程度OS(Pc, Kc)超过给定阈值,则称该已知蛋白质复合物被识别或被匹配。如果OS(Pc, Kc)=1,则称该已知蛋白质复合物被完美匹配。被识别的已知蛋白质复合物数量(MKC)越多,说明算法能够准确预测蛋白质复合物的能力越强。
图3-3为在不同OS阈值下,MCL算法分别在APIN、TC-PIN和SPIN三个网络中识别的能够匹配上已知蛋白质复合物的蛋白质复合物的数量(MPC),其中,OS的取值范围为[0,1]。可以看出,在OS>0的各取值下,MCL算法在APIN上预测的蛋白质复合物匹配的已知蛋白质复合物的个数要比在其他网络上多。当OS≥0.2时,在APIN上,254个已知蛋白质复合物被识别,而在TC-PIN和SPIN网络上,分别只有221个和180个已知蛋白质复合物被识别。
图3-3 在APIN、TC-PIN和SPIN网络上,不同OS阈值下已知蛋白质复合物被识别的个数
3.2.4 算法的特异性、敏感性和综合指标
算法的特异性(Specificity,Sp)和敏感性(Sensitivity,Sn)是用来评估蛋白质复合物识别算法的两个重要指标[141]。其中,特异性被定义为算法正确识别的蛋白质复合物部分占算法所识别蛋白质复合物总数的比例,如公式(3-6)所示;敏感性则指算法识别的已知蛋白质复合物占已知蛋白质复合物总数的比例,如公式(3-7)所示。
其中,公式(3-6)中的TP(True Positive)表示算法识别的蛋白质复合物OS(Pc, Kc)≥0.2的个数;FP(False Positive)表示算法识别的蛋白质复合物OS(Pc, Kc)<0.2的个数。FN(False Negative)表示已知复合物中未被算法识别的蛋白质复合物匹配上的个数。
Li等[142]综合考虑Sn和Sp两个方面,提出了综合指标(f-meausre,F),其计算公式(3-8)如下:
在表3-1中,#PC表示MCL算法在蛋白质网络中识别的蛋白质复合物的个数,#MKC表示当OS≥0.2时,已知蛋白质复合物被匹配的个数。完美匹配(Perfect Matching)是指OS=1,已知蛋白质复合物与预测的蛋白质复合物完全一致的个数。表3-1列出了OS≥0.2时算法的敏感性(Sn)、特异性(Sp)和综合指标(f-meausre,F)。我们可以发现,MCL在TC-PIN上预测的蛋白质复合数量比APIN上的要多,而MCL在APIN上识别的已知蛋白质复合个数(OS≥0.2)和完美匹配个数均多于TC-PIN。MCL在APIN上的Sn、Sp和f-meausre都高于TC-PIN和SPIN。APIN上预测的蛋白质复合物完美匹配38个已知蛋白质复合物,而TC-PIN上预测的蛋白质复合物只完美匹配了23个已知蛋白质复合物和SPIN上只完美匹配了13个已知蛋白质复合物。
表3-1 MCL算法在动态蛋白质网络(APIN)、时序蛋白质网络(TC-PIN)和静态蛋白质网络(SPIN)上的性能比较
3.2.5 功能富集性分析与算法精度分析
为评估每个网络的有效性,我们对APIN、TC-PIN和SPIN上预测的蛋白质复合物进行了功能富集性分析。GO(Gene Ontology)提供了本体语言来定义描述基因产物性质的GO注释。GO注释主要包括三个方面:生物过程(Biological Process,B.P.),分子功能(Molecular Function,M.F.),细胞组分(Cellular Component,C.C.)。功能富集性分析是分析蛋白复合物质在某项功能上的富集程度。p-value在一定程度上体现了某个功能在一个蛋白质复合物上的富集程度,p-value计算如下所示:
其中,N表示蛋白质网络中蛋白质的数量,C表示蛋白质复合物中蛋白质的数量,k表示蛋白质复合物中含有该功能的蛋白质数量,F表示蛋白质网络中具有该功能的蛋白质的数量。p-value越小,说明蛋白质复合物能够集体随机出现这种功能的概率越低,这样可能更有生物学意义[143, 144]。通常根据每个预测的蛋白质复合物的最小p-value值对应的功能为其赋予一个主功能[145]。用一个阈值来区分有生物意义的蛋白质复合物和无生物意义的蛋白质复合物,如果预测的蛋白质复合物的p-value比这个阈值大,那么这个蛋白质复合物就被认为是无生物意义的。推荐的阈值通常为0.01。
但是,用p-value来评估包含时刻子网的动态蛋白质网络中识别的蛋白质复合物存在不公平性。动态网络旨在精确描述蛋白质网络的动态性。出现在蛋白质网络中一个时刻的蛋白质数量远要比静态蛋白质网络中的少。相同功能的蛋白质更趋向于同时出现,因此时刻网络越精确,具有相似功能的蛋白质聚集的可能性越大,从而较小的网络中识别的蛋白质复合物可能具有较高的p-value值。
表3-2列出了SPIN、TC-PIN和APIN时刻子网的顶点平均个数、边的平均条数以及网络的稠密程度。APIN的活性时刻子网平均只有902个顶点,1476条边。与APIN相比,TC-PIN的时刻子网的平均顶点个数是APIN活性时刻子网的4倍,平均的边数是APIN时刻子网的12倍。SPIN的顶点数和边的条数都是TC-PIN的1.3倍。因此,与TC-PIN以及SPIN相比,在APIN的活性时刻子网中,同时处于活性状态的蛋白质具有相似功能的可能性越高,从而在APIN上识别的蛋白质复合物可能有较高的p-value值。
表3-2 APIN、TC-PIN和SPIN时刻子网的顶点平均个数、边的平均条数以及网络的稠密程度
查全率(Recall,R)和查准率(Precision,P)用来评估算法识别的有生物意义的蛋白质复合物的正确性[68]。查全率R和查准率P的计算如公式(3-10)和公式(3-11)所示。
其中,M表示算法识别的某个蛋白质复合物,Fi表示蛋白质网络中具有某一生物功能的蛋白质集合。一般来说,Fi为该蛋白质复合物最小p-value对应的某一生物功能的蛋白质集合。
显然,算法识别的某个蛋白质复合物包含的蛋白质数目越多,其对应的查全率R越高,而其对应的查准率P就越低。相反,查准率高(P=1),其查全率可能会很低。因此,F-score[146]综合考虑上述两个指标来正确的评估一个识别的蛋白质复合物。算法的精度(Accuracy)定义为算法识别的有生物意义的蛋白质复合物的平均F-score值。一般情况下,就GO注释的三个方面—B. P.、M. F.和C. C.,对算法识别蛋白质复合物的精度进行评估。F-score的计算如公式(3-12)所示[68]:
蛋白质网络中具有某一生物功能的蛋白质集合随时间而变化,如果忽略每个时刻子网中各个生物功能的蛋白质集合随时间而变化这个事实,那么在分析时刻子网上预测的蛋白质复合物的功能富集性以及算法精确性时,这些蛋白质复合物将得到不公正的评价。因此,在分析时刻子网预测的蛋白质复合物时,应该考虑的是该时刻网络中出现的各个生物功能的蛋白质集合,而不是静态网络中出现的各个生物功能的蛋白质集合。
GO Term Finder可以用来分析酵母蛋白质复合物的功能富集性以及精确性。我们计算了APIN和TC-PIN的每个时刻网络中出现的各个生物功能的蛋白质集合,然后用GO Term Finder(http://www.yastgenome.org/)这个工具计算时刻子网中每个蛋白质复合物的p-value、查全率R、查准率P和F-score值。算法的精度是算法在12个时刻子网识别的不重复、有生物意义的蛋白质复合物的F-score平均值。
表3-3列出了APIN、TC-PIN和SPIN网络中识别的蛋白质复合物的p-value在[0, e-15],(e-15, e-10],(e-10, e-5],(e-5, 0.01]和(0.01, 1]区间分布的百分比情况。如表3-3所示,APIN中识别的有生物意义的蛋白质复合物的p-value落在[0, e-15)和[e-15, e-10]区间的比例比TC-PIN和SPIN中的要低,这是因为APIN更小更精确,APIN时刻子网聚集拥有相似功能的蛋白质的概率比TC-PIN和SPIN的要高。APIN中无生物意义的蛋白质复合物的比例比TC-PIN的要低,比SPIN的要稍高。
表3-3 APIN、TC-PIN和SPIN预测的蛋白质复合物在B.P.过程的功能富集性比较
我们对比了MCL算法在B.P.、M.F.和C.C.方面的算法的精度。如表3-4所示,MCL算法在APIN上的M.F.和C.C方面的算法的精度比TC-PIN都高,在B.P.方面的算法的精度比TC-PIN稍低。因为B. P.代表生物过程方面的注释,而生物过程必定涉及到许多蛋白质,因而与预测的蛋白质复合物规模相关。MCL算法在SPIN上的三个方面的算法的精度都低于APIN上的,而MCL算法在TC-PIN上只有在B.P.方面的算法的精度比SPIN有显著优势。由此可见,APIN是一个更精确、更具有生物意义的网络。
表3-4 MCL算法在APIN、TC-PIN和SPIN上B.P.、M.F.和C.C.过程的算法精度
3.2.4节和3.2.5节中的对比结果显示,算法在APIN上预测的蛋白质复合物比TC-PIN和SPIN两个网络上的更加精确,由此可见活性蛋白质及其相互作用对提高预测有意义的蛋白质复合物的能力很有帮助。
3.2.6 蛋白质复合物完美匹配分析
通过丢弃不在同一时刻处于活性的多余的蛋白质,APIN的每个时刻子网能够精确描述该时刻下蛋白质相互作用的网络,从而能够获得更加精确的蛋白质复合物预测。以MCL在APIN上得到的更多的完美匹配为例,图3-4中显示了已知蛋白质复合物以及从APIN和TC-PIN上预测的蛋白质复合物的匹配情况。椭圆代表酵母的已知蛋白质复合物,矩形表示APIN上预测的蛋白质复合物,虚线矩形表示TC-PIN上的蛋白质复合物。YNL230C和YPL046C组成Ela1p/Elc1p复合物,这个复合物被APIN上的复合物完美匹配,而被TC-PIN上的4个不同的复合物重复匹配,且不是完美匹配。很显然,同一个算法能够在APIN上预测更加准确的蛋白质复合物。
图3-4 完美匹配示例