Peptidoform in DIA 多肽型的置信控制

DIA-NN软件的开发者Vadim Demichev团队日前公开了其于HUPO2024大会上展示的海报,其介绍了DIA-NN上新设的peptidoform FDR模块。海报链接:DiaNN/Presentations/HUPO 2024 poster.pdf at master · vdemichev/DiaNN · GitHub

DIA-NN是数据非依赖型采集用于分析蛋白质组学数据的王牌软件。除了普通蛋白质组外,目前DIA-NN也支持分析翻译后修饰(及修饰位点;笔者注:修饰位点的确认及定量,又名site-specific issue,其实是DIA分析相较于DDA的一大优势;前几年的数篇技术论文有详细讨论,笔者亦写过一篇相关的综述博客,链接:http://www.liangxiao.pro/tag/ptm/ 供参考)。但论文提到,DIA目前对于多肽型(原文peptidoform,原指一种多肽的序列、翻译后修饰、结构等性质的组合)区分的置信度(confidence)并没有单独的模块,而这可能会导致错误匹配不受控制。

通常,对DIA数据测出的多肽的置信评估是基于多肽层面的target-decoy模型进行的。Decoy通常是跟target peptide总数目一致、序列随机打乱但质荷比不变的一套多肽。可以看出,这种评估是“peptide-centric”,但并没有能考虑PTM等更精细的多肽型匹配中出现的错误。原版本的DIA-NN通过调整decoy的生成方式,将打乱序列修改成随机突变掉修饰位点的一个氨基酸,实现了对于DIA数据中PTM的置信评估(实施例可参考2021年的Nature Communications论文:https://www.nature.com/articles/s41467-021-25454-1)。DIA-NN 团队本次再度优化了decoy的生成方式,修改为“随机突变掉这条多肽的任一氨基酸、不限于修饰位点”(见下图)。藉此,DIA-NN对匹配出的多肽置信评估将不再仅限于一种特定的PTM,因此无比地符合多肽型的定义;其生成方式基于传统decoy但没有带来额外复杂度,因此堪称“优雅”。笔者认为,DIA-NN的下一个故事或许就是DIA-NN Open search。

为了验证这种新方法的有效性,研究者们给出了多个例子,包括普通DIA数据检索和多重DIA数据检索(SILAC);以及泛素化、磷酸化两种修饰的检索。新方法皆降低了多肽的错误匹配数。尽管在一些例子中正确匹配的多肽数目也有降低,但“准确度”和“灵敏度”本身就是质谱检测中绕不开的平衡。

DIA-NN的开发者们也走向了商业化,成立了初创公司APTILA,公司链接https://aptila.bio/,最近将推出其软件的企业版本。

来者可追……