维基词典同义词词库转化为可机读格式的比较

摘要:Wiktionary是一个独特、奇特、有价值且原创的自然语言处理资源。本文介绍了一个开源的Wiktionary分析器:其架构和需求,以及需要考虑的Wiktionary特征,Wiktionary和分析器存在的一些问题。目前的分析器实现了从英语和俄语Wiktionaries中提取定义、语义关系和翻译。本文的目标是吸引研究人员:(1)使用构建的机器可读词典进行不同的NLP任务,(2)扩展软件以解析170个尚未使用的Wiktionaries。对比了英语Wiktionary和俄语Wiktionary中的语义关系数量和类型、定义数量和翻译数量。发现英语Wiktionary的语义关系数量大于俄语Wiktionary的1.57倍(分别为157万和10万)。但俄语Wiktionary的条目更加“丰富”(具有大量语义关系),例如,三个或更多语义关系的条目数量比英语Wiktionary多1.63倍。对比发现了Wiktionary的方法论缺陷。

作者:A. A. Krizhanovsky

论文ID:1006.5040

分类:Information Retrieval

分类简称:cs.IR

提交时间:2010-06-28

PDF 下载: 英文版 中文版pdf翻译中