This special issue launched by CNHUPO (HUPO in China) reviews the major advances in proteomics from 2001 (HUPO initiation) to 2021 (the 20th anniversary of HUPO). Jiaqi Zhang wrote the draft and I reviewed the scientific content. Permission to reproduce and modify the issue was granted. The original version (Chinese) could be referenced here. You could use the Language Switch icon at the top right of this page for assisted reading.
The original title: 等待蝶变 |人类血浆蛋白质组项目(HPPP)研究进程
Proteins in plasma have been studied since before we knew genes existed.
—— Leigh Anderson & Norman Anderson
人类血浆蛋白质组 (The human plasma proteome) 在人类生物学 (Human biology) 和病理生理学 (Pathophysiology) 研究领域起着关键作用,并有望为精准疾病诊断和治疗监测创造一场颠覆性革命。 一方面,血浆蛋白是各种生物过程的重要“玩家”,参与生长、修复、信号传导、运输和抵御感染等关键生命活动。另一方面,血浆蛋白会随着疾病发生发展过程产生差异化调节。因此,系统而精确地认识正常生理/病理状态下血浆蛋白性质,将能有效推动疾病分子标志物和药物靶标的发现进程。
1 困境 |“科学幻想”
然而人类血浆蛋白组的分析极具挑战性,这种挑战性不仅来源于血浆蛋白本身,亦来源于分析技术、平台的限制。首先,血浆是体液分析中最复杂、最多样化的样本。因为(1)血浆中最高和最低丰度蛋白浓度的差值大于10个数量级。高丰度蛋白,如白蛋白和免疫球蛋白,占总血浆蛋白的80%;而其余蛋白以很低的浓度存在,但它们与许多疾病的演变过程相关,亦是潜在的生物标志物。所以,在进行血浆蛋白质组分析时,去除高丰度蛋白的干扰至关重要;其次,(2)血浆中存在着大量的蛋白质变体 (Proteoform),如内源性短肽和不同翻译后修饰 (Post-translational modification, PTM)的蛋白,这使其复杂性和分析难度都更上一层楼;此外,(3)年龄、性别和遗传因素所造成的个体区别带来了更高层次的差异性,使分析工作量及研究难度变得更加难以想象。技术瓶颈也是血浆蛋白研究难越关山的关键一环。传统的蛋白质组学分析技术,如二维凝胶技术 (Two-dimensional gels) ,因检测范围有限,无法对血浆蛋白质组进行无偏差、高深度的分析。换句话说,在那个质谱技术还未被广泛应用的时期,研究人员无法更准确地“看”到更多血浆蛋白,这使得血浆蛋白生物标志物的发现一度成为“科学幻想”。除了“看”存在问题以外,血浆蛋白的发现数量与其临床诊断应用之间也存在着沟壑。2002年一篇文章指出,彼时所能检测到的血浆蛋白仅为几百个,而能应用于临床诊断和治疗监测上的则区区几十个,少之又少。
图 1994年至2002年间,FDA认可批准的血浆蛋白标志物数量呈下降趋势 (来源:The human plasma proteome: history, character, and diagnostic prospects)
2 探路者 | HPPP项目的成立
为解决以上问题,国际人类蛋白质组组织 (Human Proteome Organization, HUPO) 首任主席Sam Hanash于2002年启动重点试点计划——人类血浆蛋白质组学项目 (Human Plasma Proteome Project, HPPP)。该项目由HUPO创始人之一Gilbert Omenn领头,来自13个国家的35家蛋白质组学实验室参与其中。
图 Gilbert Omenn(左)和 Sam Hanash(右)
HPPP项目为人类蛋白质组研究的“先行者”之一,因为HPPP是HUPO早期推动项目之一,更因为血浆蛋白无可替代的研究价值。首先,(1)血浆蛋白质组是人类蛋白质组中最复杂的一个类别,囊括了不同组织的亚蛋白质组;(2)血浆是主要的临床样本。与其他体液(如脑脊液、胃液、胆汁和滑膜液)相比,血浆也更容易获得及标准化;(3)血浆蛋白对疾病诊断和疗效监测具有重要意义。因为血浆蛋白会随着血液循环流经全身,因此可反映多种疾病问题。血浆亦成为发现临床诊断监测和判断药物反应蛋白生物标志物的潜在丰富来源。目前已有一些血浆及血清蛋白被确定为疾病的潜在生物标志物,包括心血管疾病、自身免疫性疾病、感染性疾病和神经系统疾病;(4)血浆蛋白与其相应的mRNA表达相关性不大,因此以蛋白质水平对其展开研究以作补充。
与此同时,基于上文所提到的血浆蛋白自身的复杂性,以及分离、分析技术和平台的多样性,HPPP项目确定了其初期研究目标:(1)比较蛋白质组分析技术平台的优点和局限性,如灵敏度和分析深度;(2)分析人类血浆/血清参考样本 (Reference specimens);(3)建立人类血浆蛋白质组知识库。
3 进程|质谱之下的人类血浆蛋白
而其实早在HPPP项目开展前,就已经有科学家去啃血浆蛋白质组这块“硬骨头”了。
20世纪70年代,随着彼时高分辨率二维凝胶电泳技术 (Two-dimensional Electrophoresis) 的引入,血浆蛋白的检测变得可行。1977年,Leigh Anderson (血浆蛋白质组研究所创始人)和 Norman Anderson(血浆蛋白质组研究所高级科学顾问)两位研究人员成功鉴定出49种血浆蛋白质。 图 Leigh Anderson 和 Norman Anderson 利用二维凝胶电泳技术成功鉴定出49种血浆蛋白质
2002年,Leigh和Norman再接再厉,从文献中整理出289种血浆蛋白并进行汇编,这也是第一个大型血浆蛋白汇编。同年,Joshua Adkins(西北太平洋国家实验室生物科学部副主任)利用在线反相微毛细管液相色谱与离子阱质谱联用技术 (On-line reversed-phase microcapillary liquid chromatography coupled with ion trap mass spectrometry) 对血清中的蛋白质进行分析,并成功鉴定出490种血浆蛋白质。 图 Leigh Anderson 和 Norman Anderson 整理289种蛋白质(左);Joshua Adkins利用在线反相微毛细管液相色谱与离子阱质谱联用技术鉴定出490种血浆蛋白质(右)
随着质谱技术的进步与广泛应用,血浆蛋白组相关数据迅速涌现,但数据之间的可比性存在着较大问题。2003年,HPPP获得一批来自世界主要人种的样本:白种美国人(Caucasian-American)、非裔美国人(African-American),和亚裔美国人(Asian-American),并将它们制备成混合血浆和血清。
与HPPP合作的35个实验室都得到了这批样本,但他们所应用技术平台和数据提取、分析方法各不相同,这导致数据结果间出现了很大差异。项目报告指出,该研究共检测出9504个不重复蛋白,每个实验室都能检测到这9504个蛋白质中的至少1个肽段。其中的3020个蛋白质能被检测出至少两个肽段,而能被检测出3个肽段的蛋白质数量为1500。由于数据间的可比性较差,研究人员于2006年对这份报告进行再分析,认为仅有889个蛋白质拥有高可靠性证据证实其存在。
逐渐地,质谱技术向双“高”发展(高灵敏度和高准确度),蛋白质的量化鉴定规模也“水涨船高”。与早期血浆蛋白质组数据库相比,现在的二级质谱图具有高分辨率的特性,使样品分析的准确度大为提高,假阳性率大大降低。研究人员因此能够“看”得更“深”、更“多”——观察到更多的肽段,并提高了序列覆盖率。 2005年,Eric Deutsch(Moritz实验室首席科学家)与8个实验室应用液相色谱-串联质谱法对血浆/血清进行研究,并将实验结果映射到Ensembl人类基因组数据库 (Ensembl Genomes) 中。数据显示,共有6929个肽段被映射到960个蛋白质中。2011年,Terry Farrah(曾任职于系统生物学研究所)研究团队识别了1929个高可靠性蛋白质 (FDR为1%);2013年,共有3553个不重复蛋白质被成功鉴定。 2015年,Hasmik Keshishian团队 (麻省理工Broad Institute蛋白质组学研究中心高级科学家) 以四位进行过心肌梗塞手术的肥厚型心肌病 (Hypertrophic cardiomyopathy, HCM) 患者的血浆为样本,应用iTRAQ技术和高分辨率的Q Exactive Plus Orbitrap仪器进行分析。他们成功将每个样品中的至少3400个蛋白质进行量化,部分样品中有5300个蛋白质被成功鉴定(FDR<0.02%)。2016年, 研究人员鉴定出3509个符合《HPP质谱数据注解指南2.1版本》标准 (HPP Guidelines for Mass Spectrometry Data Interpretation v2.1) 的血浆蛋白。 另一方面,PeptideAtlas数据库(储存、记录不同物种肽段及蛋白质质谱数据)作为HPPP项目的一部分,自2004年开始持续收集全球实验室的质谱实验数据。通过对原始数据进行分析处理,最终整理为标准统一的多肽汇编,并向全球科研人员公开。不仅如此,人类血浆多肽图谱 (Human Plasma PeptideAtlas) 也从2005年开始,随着血浆蛋白质组数据的增长变化,更新公开高严格性的血浆蛋白快照 (Snapshot)。人类血浆肽段图谱的最新数据 (Human Plasma PeptideAtlas 2021-07) 显示,研究人员从240个基于质谱分析的实验中鉴定出4395个标准蛋白质 (Canonical proteins)。
图 人类血浆肽段图谱的最新数据 (Human Plasma PeptideAtlas 2021-07) 显示,已鉴定出 4395个标准蛋白质
2021年, Eric Deutsch等科学家就人类血浆蛋白质组的进展及应用领域发表文章Advances and Utility of the Human Plasma Proteome。文章指出,血浆蛋白质组学的研究与相关应用必然在精准医疗方面发挥越来越大的作用,目前已为新冠感染、衰老和止血 (Hemostasis) 三大热门研究板块带来更多的研究思路。
图 2021年, Eric Deutsch等科学家就人类血浆蛋白质组的进展及应用领域发表文章Advances and Utility of the Human Plasma Proteome
4 期待蝶变 | 血浆蛋白研究的未来
血浆蛋白质组的研究无疑会给生命科学领域带来颠覆性的进展。然而我们也不难看出,近20年中人类血浆蛋白质的识别鉴定速度和数量仍很受阻。尽管当前的蛋白质组学技术和分析方法都有了长足的进步,如自动化高通量分离、鉴定技术及平台的相继出现,但其仍无法与血浆蛋白的高度复杂性相匹配。这使得科学家们所测得的数据精度不够,无法揭示深层的信息,更难以用于临床诊断与治疗监测上。
而事实上,这种研究困境才是科研常态。科研从来不是神话,而是一场扩日持久的消耗战。它是99℃的恒温水,只要出现颠覆性的技术方法,就能飙升沸腾;而后,再次落至99℃,等待下一个沸腾,如此往复。蝶变需要时间,过程愈是曲折漫长,结果愈是美好震撼。
同样的,尽管HPPP项目研究进程并不那么理想,但我们仍可以乐观地预测,其将在不久的未来,帮助研究人员和临床医生精确地描绘出疾病治疗、监测的问答全景图。
参考资料
1. Albert F. W., & Kruglyak, L., (2015). The role of regulatory variation in complex traits and disease. Nature Reviews Genetics, 16(4), 197-212.
2. Schwenk, J. M., Omenn, G. S., Sun, Z., Campbell, D. S., Baker, M. S., Overall, C. M., … & Deutsch, E. W. (2017). The human plasma proteome draft of 2017: building on the human plasma PeptideAtlas from mass spectrometry and complementary assays. Journal of proteome research, 16(12), 4299-4310.
3. Adkins, J. N., Varnum, S. M., Auberry, K. J., Moore, R. J., Angell, N. H., Smith, R. D., … & Pounds, J. G. (2002). Toward a human blood serum proteome: analysis by multidimensional separation coupled with mass spectrometry. Molecular & Cellular Proteomics, 1(12), 947-955.
4. 王英, & 赵晓航. (2004). 血浆蛋白质组——人类蛋白质组计划的 “探路者”. 生物化学与生物物理进展, 31(8), 673-678.
5. Omenn, G. S., States, D. J., Adamski, M., Blackwell, T. W., Menon, R., Hermjakob, H., … & Hanash, S. M. (2005). Overview of the HUPO Plasma Proteome Project: results from the pilot phase with 35 collaborating laboratories and multiple analytical groups, generating a core dataset of 3020 proteins and a publicly‐available database. Proteomics, 5(13), 3226-3245.
6. Omenn, G. S. (2007). The HUPO human plasma proteome project. PROTEOMICS–Clinical Applications, 1(8), 769-779.
7. Nanjappa, V., Thomas, J. K., Marimuthu, A., Muthusamy, B., Radhakrishnan, A., Sharma, R., … & Prasad, T. K. (2014). Plasma Proteome Database as a resource for proteomics research: 2014 update. Nucleic acids research, 42(D1), D959-D965.
8. Anderson, N. L., & Anderson, N. G. (2002). The human plasma proteome: history, character, and diagnostic prospects. Molecular & cellular proteomics, 1(11), 845-867.
9. Deutsch, E. W., Omenn, G. S., Sun, Z., Maes, M., Pernemalm, M., Palaniappan, K. K., … & Schwenk, J. M. (2021). Advances and utility of the human plasma proteome. Journal of proteome research, 20(12), 5241-5263.
10. Omenn, G. S. (2021). Reflections on the hupo human proteome project, the flagship project of the human proteome organization, at 10 years. Molecular & Cellular Proteomics, 20.