前言
这是一本专业性较强的书,不适合作为入睡前的床头读物。内容看上去很高深且枯燥无味,实际上主要介绍了我硕士及博士研究生期间针对生物信息学方面的几个经典问题,引入不同的多元信息或生物假设,提出的解决方案,例如,构建更贴近真实状态的蛋白质相互作用网络、基于蛋白质网络的生物知识发现。本书反映了我们这一代研究生在科研过程中的思潮涌动、别出心裁、柳暗花明以及自娱自乐。
本书的内容可能并不那么实用,我不知道谁会用本书介绍的方法。目前,据我所知,美国物理学会院士、匈牙利科学院院士Albert-Laszlo Barabasi教授等,利用本书介绍的基于3-sigma准则的动态蛋白质网络构建方法构建的动态蛋白质网络,作为研究时序网络的来源,成果发表在国际顶级期刊Science上。在论文致谢部分,Albert-Laszlo Barabasi教授等特别感谢了我们用该方法为他们提供的动态蛋白质网络数据。中国医学科学院、北京协和医学院、国家食品药品监督管理总局药品安全评价中心、北京市药品非临床安全性评价重点实验室、国家食品药品监督管理局的Xing-chao Geng和Bo Li等,从本书介绍的基于3-sigma准则计算基因表达阈值的方法得到启发,提出了基于3-sigma准则的体外药物性肝损伤毒性阈值的计算方法,从而为区分体外细胞毒性的存在提供了一种清晰的量化方法。
在神奇的生命科学领域,本来就充满各种有趣的生物算法。发现生物算法中的生物特征,才能寻找到贴近真实的生物算法。本书介绍的计算方法并不高深,既没有创造计算机算法,也没有引入很复杂的模型。有一个思想始终贯穿我所有的研究工作:在生命科学领域,如果你想探索生物分子的工作机制,那么就要像它们一样思考。因此,我所有的研究工作主要围绕如何发现生物特征,然后再将它们加入已有算法中对生物问题进行求解。例如,在构建动态蛋白质网络时,我们认为蛋白质表达的动态性不能充分反映蛋白质相互作用的动态性,同时被表达却不处于活性状态的一对蛋白质不能保证它们之间的相互作用的发生。在生物过程或细胞周期中,动态表达水平可以间接地反映蛋白质活性的动态性。因此,我们用时序的基因表达数据可以推断蛋白质活性动态信息:每种蛋白质有各自的活性周期,当基因表达量处于最大值时,此时基因产物(蛋白质)是活性的。我们用3-sigma准则根据每个基因的表达曲线为其设计活性阈值,从而区分在一个细胞周期内蛋白质在哪些时刻处于活性状态。在预测蛋白质复合物时,我们分析了已知复合物的内部特征,并设想蛋白质复合物形成的过程,从蛋白质复合物形成过程以及蛋白质活性状态出发,提出了一种基于即时(just-in-time)机制和蛋白质活性的蛋白质复合物提炼方法。与人类社会网络类似,生物分子网络中,生物分子之间存在协作关系以及调控关系,具有不同拓扑特征的蛋白质可能以不同的方式来聚合成蛋白质复合物,应该区别对待,因此我们还从这个角度出发去识别蛋白质复合物。因为蛋白质必须位于正确的亚细胞区间才能执行它们的功能,也只有当蛋白质位于相同的亚细胞区间时,蛋白质相互作用才可能发生。因此,本书还基于蛋白质亚细胞定位信息,以新的角度研究适用于多物种的关键蛋白质识别、蛋白质复合物挖掘以及蛋白质功能预测。通过对上述问题中相关生物特性的分析,结合蛋白质亚细胞定位信息对这些问题提出新的求解模型,有效地结合多元的生物信息实现对问题的求解。
本书主要包括四部分。第一部分提及的基础知识涉及蛋白质相互作用、蛋白质相互作用网络、蛋白质复合物、关键蛋白质以及蛋白质功能,这些内容都是本书后续部分的研究重点。第二部分主要围绕如何提高蛋白质网络的可靠性来讲述,涉及结合基因表达数据、引入动态信息的动态蛋白质网络构建,以及引入蛋白质的亚细胞区间信息的蛋白质网络的构建和加权方法。第三部分主要介绍蛋白质复合物识别研究的现状,提出几种蛋白质复合物识别方法。这体现了将蛋白质复合物固有的生物特征应用到蛋白质复合物预测,可使预测的蛋白质复合物更具有生物意义。第四部分主要介绍基于亚细胞定位信息的两种关键蛋白质预测方法。第五部分主要介绍蛋白质功能预测相关的问题,以及试图利用亚细胞定位信息提高蛋白质功能预测准确性的尝试。第六部分对未来的蛋白质网络研究的挑战和机遇进行展望。
感谢中南大学计算机学院(原信息科学与工程学院)对我的培养。感谢中南大学生命科学学院的同事对我现阶段自由探索和实践的宽容,这使我能够心无旁骛地研究自己感兴趣的东西。感谢我的老师王建新教授、陈建二教授、潘毅教授和吴方向教授,你们让我领悟到做科研不仅需要有活跃的思维,而且要有精益求精的态度。感谢我先生陈小专给予我的理解和关心,感谢我的宝贝钱钱小朋友以及即将出世的宝宝小蜜糖,你们的陪伴和笑容让我内心充满了力量。
本书由彭小清(中南大学)执笔,得到国家自然科学基金(基金号:61702555)和中南大学特聘副教授启动经费的资助。
限于篇幅与自身学识,本书并未涉及生物信息学的其他研究问题。撰写此书虽已尽全力,成书在即仍旧诚惶诚恐,既恐出现纰漏,贻笑大方,更恐误人子弟,罪莫大焉。相关建议或批评,可直接发至本人邮箱xqpeng@csu.edu.cn交流讨论。
最后,我想说,生命科学领域未知的谜团还有很多很多,我将继续充满好奇和兴奋在这漫漫长路上不断探索,希望能在自然科学前进的道路上铺下一块小小的砖头。
彭小清
于长沙市岳麓山下2020年7月16日