寻找同一物种不同蛋白进化速率差异的决定因素从分子进化生物学这一学科诞生起就是其核心问题之一。目前已知蛋白序列的进化速率主要由其受到的净化选择强度决定,表达量越高的蛋白受到更强的“选择限制”,因此进化速率越慢。这解释了蛋白的表达量(expression level,E)与进化速率(evolutionary rate,R)之间的负相关关系,一般被简称为E-R负相关。关于E-R负相关目前学界存在两种主流的假说,“维持蛋白功能”假说和“规避细胞毒性”假说。两种假说都认同对细胞适合度有害影响更大的突变会受到更强的净化选择限制,而该影响在一定程度上由该蛋白的表达水平决定。两个假说的区别在于,维持蛋白功能假说认为突变的有害影响主要来源于蛋白自身功能的损失,而细胞毒性规避假说则认为突变的有害影响主要来源于蛋白错误折叠产生的细胞毒性。在细胞生物中,人们通常难以明确区分一个有害突变究竟影响了蛋白功能还是导致了细胞毒性,因此一直缺乏对于两种假说的实证性数据检验。
由于病毒不具备细胞结构,病毒基因组编码的蛋白不受到规避细胞毒性的净化选择限制,但依然受到维持病毒蛋白正常功能的净化选择限制。中国科学院遗传与发育生物学研究所钱文峰研究组利用病毒作为研究对象以区分两种假说,发现在包括新冠病毒在内的10种病毒中,蛋白表达水平和进化速率之间不存在显著的相关性。他们进一步分析发现,一旦病毒序列整合到宿主细胞的基因组而重新受到规避细胞毒性的净化选择限制——例如人内源逆转录病毒——E-R负相关就会被观察到。这些观测不支持维持蛋白功能假说,提示维持蛋白功能可能并非影响蛋白进化速率的主要选择限制,而规避细胞毒性或许是影响蛋白进化速率的关键因素。该研究尝试回答了困扰分子进化学者多年、近些年仍在激烈辩论的核心进化生物学问题——导致同一基因组内蛋白序列进化速率差异的决定因素,通过数据检验了该科学问题的两个著名假说,并为预测导致疾病的有害突变提供了新的视角。
上述研究于2021年5月5日在Genome Biology and Evolution杂志上发表(DOI:10.1093/gbe/evab049),钱文峰组博士研究生魏昌硕和陈燕鸣为共同第一作者,陈瑛博士和钱文峰研究员为共同通讯作者。该研究得到科技部“蛋白质机器与生命过程调控”重点研发计划、国家自然科学基金委“优秀青年科学基金项目”的资助。
图:蛋白序列进化(运动员的奔跑)受到净化选择(背包)的限制,相较于维持蛋白功能(fx)所受到的限制,有害突变导致的细胞毒性更可能是决定蛋白进化速率差异的机制