顺序人机交互中的奖励塑造方法以构建可信任的机器人

摘要:信任感知的人机交互(HRI)引起了越来越多的研究关注,因为信任已被证明是有效的人机交互的关键因素。信任感知的HRI研究发现了一个困境 - 最大化任务奖励往往会导致人类的信任减少,而最大化人类的信任则会损害任务性能。在这项工作中,我们通过将HRI过程形式化为一个两个玩家的马尔可夫博弈,并利用奖励塑造技术,来解决这个困境,以改善人类的信任同时限制性能损失。具体而言,我们证明了当塑造奖励是基于潜在能量的时候,性能损失可以由在马尔可夫博弈的最终状态评估的潜在函数所限制。我们将所提出的框架应用于基于经验的信任模型中,从而得到一个可以在实际应用中高效解决和部署的线性规划问题。我们在一个模拟场景中评估了所提出的框架,其中人机团队执行搜索和救援任务。结果表明,所提出的框架成功地修改了机器人的最优策略,使其能够在最小的任务性能成本下增加人类的信任。

作者:Yaohui Guo, X. Jessie Yang, Cong Shi

论文ID:2308.00945

分类:Robotics

分类简称:cs.RO

提交时间:2023-08-03

PDF 下载: 英文版 中文版pdf翻译中