癌症亚型鉴定中基因表达数据聚类的原型解决方案空间
摘要:基因表达谱在识别不同的癌症表型中至关重要。聚类基因表达数据集可以提供准确的癌细胞系鉴定,但由于样本数量少和高维度的困难,这个任务是具有挑战性的。我们使用K-means聚类算法,利用能量景观理论确定不同基因表达数据集的解空间组织。解空间景观使我们能够理解K-means的性能,并在改变常见的数据集属性时提供更有效的使用指南;特征数量、聚类数量和聚类分布。我们发现,当聚类数量符合要求时,景观具有单一漏斗结构,当聚类数量偏离要求时,这种结构就会丢失。我们使用一种挫折度量来量化这种景观结构,并显示它可以为适当的癌症亚型数量提供一种新的诊断工具。
作者:Yuchen Wu, Luke Dicks and David J. Wales
论文ID:2305.17279
分类:Biological Physics
分类简称:physics.bio-ph
提交时间:2023-05-30