模式可组合性:探索排列对齐模型的凸组合

摘要:元素间凸组合的翻译神经网络参数向量$Theta\_A$和$Theta\_B$的规模为$d$。我们通过研究这种模型组合在超立方体$[0,1]^{d}$及其附近各个元素的分布来进行广泛实验。我们的发现表明,超立方体的广泛区域形成了较低损失值的表面,这表明线性模态连接的概念扩展到了一种更常见的现象,我们称之为模态可组合性。我们还对线性模态连接和模型重定盆进行了一些新颖的观察。我们展示了一个传递性属性:基于一个共同的第三模型重新定盆的两个模型也是线性模态连接的,并且展示了一个鲁棒性属性:即使在神经元匹配的显著扰动下,结果组合仍然形成了一个有效的模型。此外,我们分析了模型组合的功能和重量相似性,并展示了这种组合的非空性,即结果模型之间存在显著的功能差异。

作者:Adri''an Csisz''arik, Melinda F. Kiss, P''eter KH{o}r"osi-Szab''o, M''arton Muntag, Gergely Papp, D''aniel Varga

论文ID:2308.11511

分类:Machine Learning

分类简称:cs.LG

提交时间:2023-08-23

PDF 下载: 英文版 中文版pdf翻译中