顺序人机交互中的奖励塑造方法以构建可信任的机器人-arXiv论文预印本中文版

顺序人机交互中的奖励塑造方法以构建可信任的机器人

摘要：信任感知的人机交互（HRI）引起了越来越多的研究关注，因为信任已被证明是有效的人机交互的关键因素。信任感知的HRI研究发现了一个困境 - 最大化任务奖励往往会导致人类的信任减少，而最大化人类的信任则会损害任务性能。在这项工作中，我们通过将HRI过程形式化为一个两个玩家的马尔可夫博弈，并利用奖励塑造技术，来解决这个困境，以改善人类的信任同时限制性能损失。具体而言，我们证明了当塑造奖励是基于潜在能量的时候，性能损失可以由在马尔可夫博弈的最终状态评估的潜在函数所限制。我们将所提出的框架应用于基于经验的信任模型中，从而得到一个可以在实际应用中高效解决和部署的线性规划问题。我们在一个模拟场景中评估了所提出的框架，其中人机团队执行搜索和救援任务。结果表明，所提出的框架成功地修改了机器人的最优策略，使其能够在最小的任务性能成本下增加人类的信任。

作者：Yaohui Guo, X. Jessie Yang, Cong Shi

论文ID：2308.00945

分类：Robotics

分类简称：cs.RO

提交时间：2023-08-03

PDF 下载： 英文版中文版pdf翻译中