关于 Perl 状态报告器(SRr)在文本挖掘中的利用和重要性

摘要:在生物信息学中,文本挖掘和文本数据挖掘有时会互换使用,用于从文本中获取高质量信息的过程。Perl状态报告工具(SRr)是一种从平面文本文件中获取数据的工具,在本研究论文中,我们介绍了SRr在文本或数据挖掘中的应用。SRr需要一个平面文本输入文件来执行挖掘过程。SRr会读取输入文件并从中提取高质量信息。通常的文本挖掘任务包括文本分类、文本聚类、概念和实体提取以及文档摘要。SRr可以用于这些任务中的任何一个,并且几乎不需要定制工作。在我们的实现中,我们对输入文件执行文本分类挖掘操作。输入文件有两个感兴趣的参数(firstKey和secondKey)。这两个参数的组合描述了文件中条目的唯一性,类似于数据库中的复合键的方式。SRr逐行读取输入文件,并提取感兴趣的参数,并通过将它们连接在一起形成一个复合键。然后,它生成一个由firstKey secondKey命名的输出文件。SRr读取输入文件并跟踪复合键。它进一步根据该复合键在由SRr生成的输出文件中存储具有相同复合键的所有数据行。

作者:Sugam Sharma, Tzusheng Pei, and Hari Cohly

论文ID:1001.3277

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-01-21

PDF 下载: 英文版 中文版pdf翻译中