2.2 基于多状态下表达及相关性变化的动态蛋白质网络
蛋白质表达水平的改变可能导致蛋白质之间相互作用的增加或减少,也会引起蛋白质之间表达相关性的改变,从而导致生理状态的改变。表达方差(EV)可以用来衡量蛋白质的动态性,具有小EV值的蛋白质的动态性很低,反之,蛋白质的动态性较高。利用相关性计算方法[例如,皮尔逊相关系数(PCC)]可以衡量一对蛋白质的表达相关性,表达相关性越高,它们在细胞中同时表达的机会越多,越容易发生相互作用;反之,表达相关性越小,它们在细胞中同时表达的机会越少,那么它们发生相互作用的可能性就越小。
基于包含多种状态的基因表达数据,通过计算表达相关性,可以研究同种细胞不同状态下的蛋白质网络动态性。图2-2(a)所示为对应的动态网络构建的一般流程。例如,Komurov和White[127]在6个不同数据集上的272个基因表达数据上计算各蛋白质的EV,并基于EV将蛋白质分为动态蛋白质(EV>0.75)和静态蛋白质(EV<0.25)两类。他们提出动态蛋白质更趋向于处在一个高度表达相关的环境中,从而构建了一个由PCC计算的表达相关性大于等于0.65的相互作用蛋白质对组成的简单动态蛋白质网络。在这个动态蛋白质网络中,动态蛋白质占绝大多数。
为研究人类蛋白质网络的动态特性,Xia等人[128]基于26~106岁年龄阶段30个人的大脑基因表达数据,建立了一个由正相关和负相关(|PCC|>0.4)的相互作用蛋白质对组成的动态蛋白质网络,这个动态网络包含了衰老过程中表达相关性较高的蛋白质以及它们之间的蛋白质相互作用。在Xia等人研究的基础上,Xue等人[129]构建了类似的人类和果蝇的动态蛋白质网络,用来研究在人类和果蝇衰老过程中蛋白质网络结构的动态变化。在这些动态网络中,大多数相关性高的相互作用的蛋白质拥有较高的EV值,但并非所有动态蛋白质都包含在这种动态网络中。另外,在这种动态网络中,包含的只是在多状态下表达相关性高的蛋白质之间的相互作用,很可能并非所有相互作用都会同时发生。因为表达相关性通过蛋白质的表达间接刻画它们之间相互作用发生的可能性,而这些相互作用到底什么时候发生就不得而知了。
图2-2 基于表达相关性差异的动态网络构建一般流程
最近,一些研究者开始关注基于表达及相关性的动态蛋白质网络构建,特别是不同病理状态下的动态网络分析。例如,Zhang等人[130]基于两组不同发展状态下的神经胶质瘤病人的基因表达数据(短存活的样本和非常长存活的样本),计算了与胶质瘤相关的蛋白质分别在两组不同发展状态下的表达相关性,构建了胶质瘤动态蛋白质网络,其动态性主要体现为表达相关性的变化及表达信息的变化。类似于Zhang等人的构建方法,为了研究二型糖尿病,Sun等人[131]利用两组正常小鼠和疾病小鼠在三个二型糖尿病相关组织上的时序基因表达数据以及小鼠蛋白质网络,分别计算每个组织在每个时刻点上相互作用的蛋白质的表达相关性,识别出各个时刻点上显著性差异表达的蛋白质以及相关性具有显著性差异的相互作用,并构成差异性的动态蛋白质子网。与Zhang等人不同的是,Sun等人采用了斯皮尔曼相关系数(SCC)来计算两个相互作用的蛋白质的表达相关性,并且动态蛋白质网络不仅包含在相关性上具有显著性差异的相互作用和具有显著性表达差异的蛋白质,还包含了显著性表达差异的蛋白质之间的相互作用。这些基于表达相关性差异的动态网络构建的一般流程如图2-2(b)所示。
在上述动态蛋白质网络的构建中,不同的相关性计算方法和差异显著性分析方法影响动态网络的规模,对动态蛋白质网络的构建非常关键。目前,多状态下动态蛋白质网络的构建还处于初步研究阶段,只刻画了多状态下的表达及相关性差异,由于缺少新的描述模型和构建方法,不能对各种状态下蛋白质网络的整体变化等进行研究。因此,提出新的精确刻画多状态下蛋白质网络的描述方法非常必要。
到目前为止,人们对蛋白质网络的动态特性还知之甚少,如何系统地分析蛋白质网络的动态特性,如何对动态蛋白质网络进行有效描述,如何对动态蛋白质网络进行分析和评估,如何针对动态蛋白质网络提出新的生物信息发现算法,等等,这些关键问题还有待进一步研究。蛋白质网络的动态特性分析正成为蛋白质组学和系统生物学研究面临的新挑战。