用Wasserstein距离校正干扰变化

摘要:细胞表型的特征分析可以提供受细胞影响的各种因素导致的有意义的生物信息。其中一个激励应用是药物开发: 可以从图像中捕获形态学细胞特征,从而可以量化不同剂量应用的不同药物化合物之间的相似性。一般的方法是找到一个将图像映射到可管理维度的嵌入空间的函数,在这个空间中的几何结构捕捉到输入图像的相关特征。这样的方法存在一个已知的重要问题,那就是如何将有关的生物学信号与无关的变化分离开来。例如,嵌入向量在同一周培养和拍摄的细胞之间的相关性较高,而在不同周培养和拍摄的细胞之间的相关性较低,尽管两种情况下所应用的药物化合物相同。在这种情况下,实验集的特定批次构成了数据领域; 一个理想的图像嵌入集应该只包含相关的生物信息(例如药物效应)。我们开发了一个通用框架来调整图像嵌入,以便在保留相关的生物信息的同时“遗忘”特定于领域的信息。为了实现这一点,我们通过最小化基于各个重复处理领域之间嵌入边缘分布的距离(如Wasserstein距离)构建了一个损失函数。在我们提供的数据集中,唯一重复的处理是阴性对照处理,我们不希望其引起细胞形态学变化。我们发现,对于我们转换后的嵌入(i) 潜在的几何结构不仅得到了保留,嵌入还携带了改善的生物学信号; (ii) 存在较少的特定于领域的信息。

作者:Gil Tabak, Minjie Fan, Samuel J. Yang, Stephan Hoyer, Geoff Davis

论文ID:1711.00882

分类:Machine Learning

分类简称:stat.ML

提交时间:2019-06-19

PDF 下载: 英文版 中文版pdf翻译中