C-PMI:基于条件点对点互信息的会话级别对话评估
摘要:现有的面向聊天机器人的无参考对话级评估指标未能很好地捕捉用户与系统之间的互动。因此,它们往往与人类评估的相关性较低。为了解决这个问题,我们提出了一种新颖的模型无关方法,利用条件点互信息(C-PMI)来衡量基于给定评估维度的系统与用户之间的对话级互动。在广泛使用的FED对话评估数据集上的实验结果表明,与现有的评估系统相比,我们的方法显著提高了与人类判断的相关性。通过用我们提出的C-PMI评分替换负对数似然评分器,我们在FED评估指标上平均达到相对60.5%更高的斯皮尔曼相关性。我们的代码可以在https://github.com/renll/C-PMI上公开获得。
作者:Liliang Ren, Mankeerat Sidhu, Qi Zeng, Revanth Gangi Reddy, Heng Ji, ChengXiang Zhai
论文ID:2306.15245
分类:Computation and Language
分类简称:cs.CL
提交时间:2023-09-01