多臂赌博过程的最优动态机制-arXiv论文预印本中文版

多臂赌博过程的最优动态机制

摘要：收入最优动态机制设计问题,在此问题中,代理人的类型随时间演化,作为他们与被重复拍卖的商品的（公共和私人）经验的函数来考虑，持续一个无限的时间。一个核心问题是要理解哪些对环境的自然限制能够实现最优机制的设计（注意，即使在简单的静态设置中，最优机制也只在某些限制下被表征）。我们提供了对一个自然的“可分离的”多臂赌博环境的结构化表征（其中先前类型的演化和激励结构与后续经验在一个精确的意义上是解耦的），这里动态最优机制设计成为可能。在这里，我们提出了虚拟指数机制，这是一种最优的动态机制，使用经典的吉廷斯算法最大化（长期）虚拟剩余价值。该机制在考虑激励的情况下最优地平衡了探索和开发。

作者：Sham M. Kakade, Ilan Lobel, Hamid Nazerzadeh

论文ID：1001.4598

分类：Computer Science and Game Theory

分类简称：cs.GT

提交时间：2010-10-18

PDF 下载： 英文版中文版pdf翻译中