提升天然配对抗体语言模型

摘要:原生配对抗体序列的训练可以提高抗体语言模型的性能。我们利用来自Jaffe数据集的原生配对(BALM-paired)和非配对(BALM-unpaired)序列训练了两个基准抗体语言模型(BALM)。我们提供了证据表明,利用原生配对序列训练可以显著提高模型性能,并且该改进源于模型学习了横跨轻链和重链的免疫相关特征。我们还展示了当使用原生配对抗体序列数据进行微调时,ESM-2作为最先进的通用蛋白质语言模型也可以学习到类似的跨链特征。

作者:Sarah M. Burbach and Bryan Briney

论文ID:2308.14300

分类:Biomolecules

分类简称:q-bio.BM

提交时间:2023-08-29

PDF 下载: 英文版 中文版pdf翻译中