跨语言适应的结构对应学习
摘要:跨语言适应是领域适应的一个特殊情况,指的是在两种语言之间进行分类知识的转移。本文描述了结构对应学习(SCL)的扩展,这是一种最近提出的用于领域适应的算法,用于跨语言适应。所提出的方法使用来自两种语言的无标记文档以及一个单词翻译工具,来诱导跨语言特征对应关系。通过这些对应关系,创建了一个跨语言表示,可以将分类知识从源语言转移到目标语言。相比其他方法,这种方法的主要优势是资源效率和任务特异性。 我们在跨语言主题和情感分类领域进行实验,其中英语作为源语言,德语、法语和日语作为目标语言。结果显示,相对于机器翻译基准线,该方法的改进显著,平均降低了30%(主题分类)和59%(情感分类)的跨语言适应相对误差。我们进一步报告了实证分析的结果,揭示了对于未标记数据的使用的见解,对于重要超参数的敏感性,以及诱导出的跨语言对应关系的性质。
作者:Peter Prettenhofer and Benno Stein
论文ID:1008.0716
分类:Information Retrieval
分类简称:cs.IR
提交时间:2010-08-26