大规模细胞表示学习通过分治对比学习-arXiv论文预印本中文版

大规模细胞表示学习通过分治对比学习

摘要：单细胞RNA测序（scRNA-seq）数据是理解“生命语言”的有力工具，可以为各种下游生物医学任务提供洞察力。大规模语言模型（LLM）开始用于细胞表示学习。然而，目前基于LLM的细胞表示学习方法仅依赖于BERT架构，导致各向异性嵌入空间，从而导致低效的语义表示。对比学习通过均匀分布嵌入来缓解这个问题。由于对比学习中更大的批量大小会得到更好的表示，因此在细胞表示学习中实际应用对比学习受到了scRNA-seq数据的高维度和LLM的大参数量的限制。为了解决批量大小限制，我们提出了一种新颖的分而治之的对比学习方法，将批量大小与GPU内存大小解耦，用于细胞表示学习。基于我们的分而治之的对比学习方法，我们引入了单细胞语言模型CellLM，这是一个大规模细胞表示学习模型，用于处理成千上万个基因的高维度scRNA-seq数据。CellLM拥有超过5000万个参数，经过200万个scRNA-seq数据训练，并首次尝试从正常细胞和癌细胞中学习细胞语言模型。CellLM在所有评估的下游任务中取得了最新的最佳结果：包括细胞类型注释的71.8 F1分数（相对于scBERT提高了3.0％），在少样本情况下的单细胞药物敏感性预测的平均F1分数为88.9（相对于原来提高了8.3％），以及单细胞组学细胞系药物敏感性预测的93.4个Pearson相关系数（相对于原来提高了6.2％）。

作者：Suyuan Zhao, Jiahuan Zhang, Zaiqing Nie

论文ID：2306.04371

分类：Computational Engineering, Finance, and Science

分类简称：cs.CE

提交时间：2023-06-08

PDF 下载： 英文版中文版pdf翻译中