基于任务的多任务多语言机器翻译的MoE方法
摘要:在训练深度模型的多个应用程序中,混合专家(MoE)架构已被证明是一种强大的方法。然而,当前的MoE实现是任务不可知的,将来自不同任务的所有标记以相同的方式处理。在这项工作中,我们设计了一种新颖的方法,将任务信息以不同的粒度水平与共享的动态基于任务的适配器相结合,将其合并到MoE模型中。我们的实验和分析显示,与密集和经典的MoE模型相比,我们的方法具有优势,在多任务多语言机器翻译上表现更好。通过任务特定的适配器,我们的模型还可以高效地推广到新的任务。
作者:Hai Pham, Young Jin Kim, Subhabrata Mukherjee, David P. Woodruff, Barnabas Poczos, Hany Hassan Awadalla
论文ID:2308.15772
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-08-31