可控的蛋白质设计与语言模型-arXiv论文预印本中文版

可控的蛋白质设计与语言模型

摘要：21世纪给人类带来了前所未有的环境和医学挑战。能够设计符合特定目的的新型蛋白质可能会改变我们对这些问题的及时应对能力。人工智能领域的最新进展正在为实现这一目标奠定基础。蛋白质序列与自然语言本质上相似：氨基酸以多种组合形成具有功能的结构，就像字母组成有意义的词语和句子一样。因此，不足为奇的是，在自然语言处理（NLP）的发展历史中，许多技术已被应用于蛋白质研究问题上。在过去几年中，我们目睹了自然语言处理领域的革命性突破。Transformer预训练模型的实施使得生成具有类似人类能力的文本成为可能，包括具有特定属性（如风格或主题）的文本。受到其在NLP任务中的巨大成功的启发，我们预计专用的Transformer将在不久的将来主宰自定义蛋白质序列的生成。在蛋白质家族上微调预训练模型将使其能够通过全新的序列进行扩展，这些序列可能高度分散但仍具有潜在功能。结合细胞区域或功能等控制标签将进一步实现对新蛋白质功能的可控设计。此外，最近的模型可解释性方法将使我们能够打开“黑匣子”，从而增强我们对折叠原理的理解。尽管早期的探索显示了生成式语言模型在设计功能序列方面的巨大潜力，但该领域仍处于起步阶段。我们相信蛋白质语言模型是一个有前途且尚未充分探索的领域，并讨论了它们对蛋白质设计的可预见影响。

作者：Noelia Ferruz and Birte H"ocker

论文ID：2201.07338

分类：Biomolecules

分类简称：q-bio.BM

提交时间：2022-08-24

PDF 下载： 英文版中文版pdf翻译中