DNA k-mer计数在RNA-seq fastq文件中的分层聚类揭示了批次效应。

摘要:批次效应,即实验设计带来的人为变异源,是高通量数据中普遍存在的现象。因此,需要一种可以比较多个样本的批次效应检测机制。我们应用层次聚类(hierarchical clustering)对多个RNA-seq衍生Fastq文件的DNA k-mer计数进行分析。理想情况下,层次聚类生成的树应反映实验处理组,并可能指示实验效应,但是预处理组的聚类表明存在批次效应。为了提供一个简单实用的工具,我们在Bioconductor上实现了对Fastq读取序列的顺序分析,并且低内存使用率在一个R包(seqTools)中可用。对61个包含两种细胞类型(皮肤成纤维细胞和Jurkat细胞)的RNA-seq数据的Fastq文件进行了DNA k-mer计数分析,这些数据在8个不同的Illumina Flowcells上进行了测序。结果:对所有Flowcells进行成对比较并进行层次聚类,发现在28个Flowcell比较中有6个(21%)显示出基于Flowcell的强树分离,17个(60.7%)显示出可检测的基于Flowcell的聚类。在我们的样本中,映射到人类基因组的读取中也存在批次效应。过滤高质量读取(Phred >30)并没有消除批次效应。结论:DNA k-mer计数的层次聚类提供了RNA-seq实验的质量标准和一种不具特异性的诊断工具。

作者:Wolfgang Kaisers and Holger Schwender and Heiner Schaal

论文ID:1405.0114

分类:Genomics

分类简称:q-bio.GN

提交时间:2017-07-24

PDF 下载: 英文版 中文版pdf翻译中