哪些多肽能“飞”?一项基于深度学习的多肽可检测性预测模型

来自丹麦奥尔堡大学和德国慕尼黑大学的研究者们日前于BioRxiv上公开了他们关于基于质谱的多肽可检测性预测的工作。他们开发出一个深度学习模型Pfly,可实现通过仅输入多肽序列就准确判断它们中哪些能在质谱中被检测到而哪些不能。论文标题:To fly, or not to fly, that is the question: A deep learning model for peptide detectability prediction in mass spectrometry. 论文链接:https://doi.org/10.1101/2024.10.28.620610

质谱检测多肽的原理和流程已经十分清晰。研究者们、尤其是生物学家们常常只看可测到的多肽(笔者注:文中命名为flyer,也即笔者在标题中注明的能飞的多肽;考虑到多肽就是通过被记录带电后在电场中的运动轨迹而测算质量的,这个命名十分的形象);而事实上,多肽的可检测性差异巨大;换言之,有些能飞起来、有些飞不起来;即使是对于能飞的这部分,它们信号强度也因为序列、结构等理化性质的原因有巨大差异。当我们再将检测过程中的差异考虑进去,比如电喷雾电离的参数、质谱仪的结构、实验环境(气、缓冲液纯度)等等之后,哪些多肽能飞这个问题就变得更复杂了。因此,作者将质谱数据的高变异性部分归因为多肽的可检测性。

基于此,研究者们提出并开发了一套基于深度学习的可检测性预测模型Pfly。研究者们从收集的来自公共数据的超过113万条多肽中过滤精炼出来自12325种蛋白的359881条多肽用于训练。

研究在技术上的主要创新点包括:

合适的深度学习模型:采用编码-解码(encode-decoder)架构,利用带有注意力(attention)机制的双向递归神经网络来进行训练。这种方法通过聚焦关键序列区域来提高模型的检测性预测能力。在ProteomeTools测试集上,Pfly模型的分类精度达到了66%​;在额外的两组已发表论文的独立测试集上,准确率分别达到0.78和0.68。

    高度可定制化能力。Pfly能够通过实验室特定数据的微调(fine-tune),实现定制化的可检测性预测。例如,原本的模型在纳入上述某独立测试集所在论文的部分生物学数据集进行微调后再对该数据集中分出的测试集进行预测,可以实现AOC的进一步提升,从原始模型的0.78提升至0.82。​

    真实生物样本的适用性。训练的金标准当然是来自于合成肽,但化学合肽本身就会因为部分氨基酸好连而部分难连而有选择和合成上的偏颇。Pfly的微调功能可以使得模型对非合成肽的预测更加准确,在预测合成与非合成样本中的误差相较于原模型减少了约20%​。

    多肽可检测性的预测工作并不新鲜,它们伴随着生物质谱的发展齐头并进。现有的其它工具还包括PeptideSieve、CONSeQuence、DeepMSPeptide等。论文中提到这些工具的局限性除了在准确率表现(Pfly比它们高出10%以上)之外,还体现在易用性和可定制化上。

    这篇论文本身也存在缺陷,比如:论文并未提供实验验证数据;需要进一步的真实样本验证,以确保该模型的应用可靠性。另外,虽然论文提到其它工作的易用性差、编程要求高,但Pfly同样需要使用者一定的机器学习基础,来对待分析的数据集分出一部分用于微调模型;而作为生物质谱的使用者,笔者以为大多数用于更愿意:要么直接跑几针样本用于建库以划定项目特异的可检测性;要么能定制化到如AlphaPeptDeep或Prosit一般,通过输入分析参数(如检测器类型、检测电压等)就给出输出,而这个功能基于Pfly已经纳入的数据规模应当并不难实现。Nevertheless,这篇论文在研究逻辑上严谨至极。

    论文的通讯作者Simon Gregersen Echers的研究经历十分丰富,包括了化学合成、纳米簇框架构建、环境分析、质谱等(感兴趣可参阅其领英:https://dk.linkedin.com/in/sge-aau),以“Born to forward peptide analysis(为多肽分析而生)”去赞誉也毫不夸张;作者之一Mathias Wilhelm则是多肽谱图预测软件Prosit的开发者。值得注意的是,Prosit网址目前在维护无法使用;而笔者则在Pfly所属GitHub项目DLOmix(Deep Learning in Proteomics)下见到了相关的functionality。Wilhelm在建立起AI for Mass Spec体系的路上一路高歌;蛋白组学的中生代陆续入场,数风流人物,且看今朝!