蛋白质网络建模及预测
上QQ阅读APP看本书,新人免费读10天
设备和账号都新为新人

4.2 加权蛋白质网络

不同的亚细胞区间在细胞生命活动中扮演不同角色,具有不同程度的重要性。许多重要的细胞生命活动,比如染色体复制和转录,都在细胞核内发生,涉及大量的蛋白质相互作用。据不完全统计(见第9章的表9-7),在4个物种中,细胞核亚细胞区间的蛋白质数目多于其他区间的蛋白质数目,并且关键蛋白质也主要分布在细胞核区间。因此我们提出,一个亚细胞区间的重要性与这个区间中相互作用的蛋白质的数目相关,从而构建加权的蛋白质网络。

4.2.1 亚细胞区间重要性的评估

一个区间的规模定义为这个区间中参与相互作用的蛋白质的数目。令Cmax表示具有最大规模的区间,|i|表示区间i的规模。区间i的重要性Im(i)定义为这个区间的规模与最大的区间规模的比值,如公式(4-1)所示。

从定义可知,Im(i)的值在区间(0,1]中。由于细胞核(Nucleus)亚细胞区间的蛋白质数目多于其他区间的蛋白质数目,令CMax为细胞核亚细胞区间的规模。依照公式(4-1),细胞核亚细胞区间的Im值为1。

4.2.2 蛋白质相互作用重要性的计算

不同亚细胞区间具有不同的重要性,因而在不同亚细胞区间发生的蛋白质相互作用的重要性也不同。因此,我们用亚细胞区间的重要性来衡量蛋白质相互作用的重要性。因为每个蛋白质都可能被多个亚细胞区间所注释,令Loc(u)表示蛋白质u所处的亚细胞区间集合。相互作用的蛋白质对应该位于相同的亚细胞区间,对于一个相互作用的两个蛋白质(u, v),相互作用的亚细胞区间信息可以定义SLoc(u, v)=Loc(u)∩Loc(v),即为蛋白质uv共享的亚细胞区间。SLoc(u, v)可能包含零个、一个或多个亚细胞区间。如果SLoc(u, v)包含一个或多于一个的亚细胞区间,那么将SLoc(u, v)中最大的区间重要性作为相互作用(u, v)的重要性,如公式(4-2)所定义。考虑到某些蛋白质的亚细胞定位信息可能缺失,那么当SLoc(u, v)=∅时,将11个亚细胞区间中最小的区间重要性赋予相互作用(u, v),定义如公式(4-2)所示。

其中,Cmin表示具有最小规模的亚细胞区间。基于计算好的蛋白质相互作用重要性,我们构建了加权的蛋白质网络。