氨基酸频率和结构域特征在基于随机森林的热嗜性和中温性蛋白质分类中发挥重要作用：以丝氨酸蛋白酶为例的案例研究。-arXiv论文预印本中文版

氨基酸频率和结构域特征在基于随机森林的热嗜性和中温性蛋白质分类中发挥重要作用：以丝氨酸蛋白酶为例的案例研究。

摘要：酶的热稳定性是用于工业应用的一个重要前提。因此，已经制定了几种基于机器学习的模型，以此特征作为蛋白质分类的依据。这些模型采用了从序列、结构或两者都派生的特征，结果在10折交叉验证的基础上达到了>93\%的准确率。除了使用来自各种生物体的各种蛋白质外，这些研究还依赖于数百个特征。在本研究中，使用数量明显较少的特征创建了一个酶特异性分类模型，该模型为热稳定和非热稳定酶丝氨酸蛋白酶提供了类似的分类准确性。为了构建分类器，我们挖掘了219个热耐性和200个中温菌的细菌基因组，获得其相应的丝氨酸蛋白酶序列。在提取了800个序列的特征后，进行了特征选择。我们采用了基于随机森林的分类器，以95.71\%的准确率识别热稳定和非热稳定丝氨酸蛋白酶。对热稳定性的了解以及氨基酸位置的变化对于下游的蛋白质工程技术非常重要。为了强调酶特异性分类模型的实时应用，设计了一个Web平台。通过结合序列数据和分类模型，该原型可以允许用户将查询的丝氨酸蛋白酶序列与定制数据库对齐，并确定其热稳定性。

作者：Jithin S. Sunny, Lilly M. Saleena

论文ID：2103.03512

分类：Quantitative Methods

分类简称：q-bio.QM

提交时间：2021-03-08

PDF 下载： 英文版中文版pdf翻译中