离线模型驱动的生物序列设计的双向学习
摘要:离线基于模型的优化旨在通过设计数据集和其评分的静态数据,最大化黑盒目标函数。本文主要关注生物序列设计,以最大化某个序列评分。最近的一种方法采用了双向学习,将正向映射用于开发,将反向映射用于约束,并且依赖于无限宽网络的神经切线核(NTK)来构建代理模型。尽管有效,但NTK无法学习特征,因为它的参数化,而且它的使用阻止了强大的预训练语言模型(LMs)的整合,这些模型可以捕捉到数百万个生物序列中的丰富生物物理信息。我们采用了一种替代的代理模型,将线性头部添加到预训练的LM中,并提出了一种线性化方案。这样可以得到一个闭合形式的损失函数,同时考虑了预训练LM中的生物物理信息。此外,正向映射和反向映射在序列优化过程中发挥不同的作用,因此应赋予不同的权重。为了实现这一点,我们训练了一个辅助模型,并通过双层优化框架利用其弱监督信号,有效学习如何平衡这两种映射。此外,通过扩展框架,我们开发出了第一个学习率自适应模块"Adaptive-eta",该模块与所有基于梯度的离线基于模型的优化算法兼容。在DNA/蛋白质序列设计任务上的实验结果验证了我们算法的有效性。我们的代码在这里可访问:[链接](https://anonymous.4open.science/r/BIB-ICLR2023-Submission/README.md)。
作者:Can Chen, Yingxue Zhang, Xue Liu, Mark Coates
论文ID:2301.02931
分类:Computational Engineering, Finance, and Science
分类简称:cs.CE
提交时间:2023-04-26