大规模细胞表示学习通过分治对比学习

摘要:单细胞RNA测序(scRNA-seq)数据是理解“生命语言”的有力工具,可以为各种下游生物医学任务提供洞察力。大规模语言模型(LLM)开始用于细胞表示学习。然而,目前基于LLM的细胞表示学习方法仅依赖于BERT架构,导致各向异性嵌入空间,从而导致低效的语义表示。对比学习通过均匀分布嵌入来缓解这个问题。由于对比学习中更大的批量大小会得到更好的表示,因此在细胞表示学习中实际应用对比学习受到了scRNA-seq数据的高维度和LLM的大参数量的限制。为了解决批量大小限制,我们提出了一种新颖的分而治之的对比学习方法,将批量大小与GPU内存大小解耦,用于细胞表示学习。基于我们的分而治之的对比学习方法,我们引入了单细胞语言模型CellLM,这是一个大规模细胞表示学习模型,用于处理成千上万个基因的高维度scRNA-seq数据。CellLM拥有超过5000万个参数,经过200万个scRNA-seq数据训练,并首次尝试从正常细胞和癌细胞中学习细胞语言模型。CellLM在所有评估的下游任务中取得了最新的最佳结果:包括细胞类型注释的71.8 F1分数(相对于scBERT提高了3.0%),在少样本情况下的单细胞药物敏感性预测的平均F1分数为88.9(相对于原来提高了8.3%),以及单细胞组学细胞系药物敏感性预测的93.4个Pearson相关系数(相对于原来提高了6.2%)。

作者:Suyuan Zhao, Jiahuan Zhang, Zaiqing Nie

论文ID:2306.04371

分类:Computational Engineering, Finance, and Science

分类简称:cs.CE

提交时间:2023-06-08

PDF 下载: 英文版 中文版pdf翻译中