通过扰动条形码表示高通量表达谱揭示化合物靶点
摘要:将大规模mRNA表达谱分析用于表征细胞培养模型对药物调节剂和遗传干扰的响应。随着谱分析活动的不断扩大,对产生的数据进行均一化、汇总和分析变得越来越重要,以捕捉到重要的生物信号,尽管存在批处理效应和随机变异等各种噪声源。我们使用了L1000平台对978个基因进行了大规模谱分析,这些基因被选择为代表整个基因组,跨越了数千种化合物处理。在这里,我们描述了一种使用深度学习技术将标志基因的表达变化转化为干扰条形码的方法,该方法能揭示底层数据的重要特征,并比原始数据更好地揭示重要的生物洞察力。该条形码包含了化合物结构和靶点的信息,此外,它还能更好地预测化合物在高通量筛选中的性能,说明该方法揭示了表达数据中受噪声纠缠或掩盖的潜在因素。此外,我们证明了从干扰条形码导出的可视化方法能够更敏感地为未知的化合物分配功能,通过“通过协会”的方法来预测和实验证实化合物对MAPK途径的活性。通过将深度度量学习应用于大规模化学遗传学项目,突显了这种方法及相关方法在从大规模、有时嘈杂的数据中提取洞察力和可验证假设方面的实用性。
作者:Tracey Filzen, Peter Kutchukian, Jeffrey Hermes, Jing Li, Matthew Tudor
论文ID:1604.02399
分类:Genomics
分类简称:q-bio.GN
提交时间:2017-04-12