将Wiktionary词条结构转化为表格和关系在关系数据库模式中的转换

摘要:从多语言和多功能的字典Wiktionary中自动提取数据的问题在本文中得以解决。Wiktionary是一个与维基百科相同原则的协作项目。从文本处理的角度来看,Wiktionary的条目是一个纯文本。Wiktionary的指导方针规定了应该遵循字典编辑者的条目布局和规则。Wiktionary文章的结构和格式规则可用于将其转化为关系数据库模式中的表和关系,这是机器可读字典的一部分。本文描述了如何提取、转换和存储Wiktionary条目的平面文本,并将其存储在专门设计的关系数据库中。机器可读字典包含从英语和俄语Wiktionaries提取的定义、语义关系和翻译。解析器软件在开源许可协议(GPL)下发布,以便于其传播、修改和升级,吸引研究人员和程序员解析其他Wiktionaries,而不仅仅是俄语和英语。

作者:A. A. Krizhanovsky

论文ID:1011.1368

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-11-08

PDF 下载: 英文版 中文版pdf翻译中