说实话能够说服多长远的接收者：MDP中的力量-arXiv论文预印本中文版

说实话能够说服多长远的接收者：MDP中的力量

摘要：贝叶斯说服研究了一位知情的发送者面临的问题，这位发送者通过策略性地披露信息来影响一位不知情的接收者的行为。最近，越来越多的关注点集中在发送者和接收者顺序互动的情景中，其中接收者的决策问题通常被建模为马尔可夫决策过程（MDP）。然而，先前的研究集中于在限制性假设下计算最优的信息披露策略（即信号方案），这一假设是接收者以局部最优的方式行动，选择行动来最大化即时效用并忽视未来的奖励。这种假设是有道理的，因为当接收者具有远见并因此考虑未来的奖励时，找到一个最优马尔可夫信号方案是NP难的。在本文中，我们证明马尔可夫信号方案并不构成“正确的”策略类别。实际上，与大多数MDP设置不同，我们证明马尔可夫信号方案并不是最优的，而应该考虑一般的历史依赖性信号方案。此外，我们还表明，历史依赖性信号方案规避了影响马尔可夫信号方案的负性复杂性结果。在形式上，我们设计了一个算法，它在多项式时间内计算出一个最优和ε-说服的历史依赖性信号方案，其中ε是一个小于1的数，并且与实例大小成多项式关系。关键挑战在于一般的历史依赖性信号方案无法用多项式空间表示。然而，我们介绍了一个方便的历史依赖性信号方案子类，称为承诺形式，它与一般的历史依赖性信号方案一样强大，并且可以高效表示。直观地说，承诺形式的信号方案将历史信息以未来接收者奖励的诚实承诺形式进行了紧凑编码。

作者：Martino Bernasconi, Matteo Castiglioni, Alberto Marchesi, Mirco Mutti

论文ID：2306.12221

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2023-06-22

PDF 下载： 英文版中文版pdf翻译中