多头适配器路径选择用于跨任务泛化
摘要:参数高效微调(PEFT)用于跨任务泛化,包括在少样本任务自适应之前在多任务训练集上预训练适配器。Polytropon [Ponti et al., 2023]($exttt{Poly}$)在预训练和少样本自适应过程中共同学习了适配器清单和选择每个任务的(可变大小的)适配器子集的路由函数。本文研究了适配器路由在其成功中的作用,并基于我们的发现设计了新的变体。首先,我们基于细粒度路由提供更多表达能力的直觉提出了$exttt{MHR}$(多头路由),它结合了适配器参数的子集,并在相当的参数预算下优于$exttt{Poly}$;通过仅对路由函数进行微调而不是适配器($exttt{MHR}$-$z$),我们实现了与极高参数效率相媲美的性能。其次,我们发现$exttt{Poly}$/$exttt{MHR}$性能是更好的多任务优化的结果,而不是先前假设的促进适配器重组和局部自适应的模块化归纳偏差。事实上,我们发现$exttt{MHR}$在任务之间的梯度对齐性较其他方法更高。由于这意味着在多任务预训练过程中路由仅起关键作用,因此我们建议$exttt{MHR}$-$mu$在少样本自适应过程中放弃路由,并对预训练适配器的平均进行微调。这将$exttt{MHR}$-$mu$建立为有效的单适配器微调方法。
作者:Lucas Caccia, Edoardo Ponti, Zhan Su, Matheus Pereira, Nicolas Le Roux, Alessandro Sordoni
论文ID:2211.03831
分类:Artificial Intelligence
分类简称:cs.AI
提交时间:2023-06-28