什么是汤普森采样（Thompson sampling）？

Question

什么是汤普森采样（Thompson sampling）？

在看到一个解决Multi-armed bandit（多臂老虎机）问题时，提到Thompson sampling，谁能通俗的讲一下，维基百科上面讲的看不…

关注者

558

被浏览

295,876

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 10 个回答

多臂老虎机问题至今已经被研究了近一个世纪，在目前推荐系统、搜索排序等实时online的系统应用广泛。虽然最初的研究相当曲折，但现在有一大群的人任在研究它，每年发表几百篇论文。Bandit算法也在工业中的实际应用中找到了自己的应用场景，特别是在在线推荐系统中，数据很容易获得，自动化是唯一的扩展方式。

本书免费pdf下载地址： 新书-《Bandit问题-基础、算法、理论、应用》分享

本书最初打算写一本全面综合的内容，但现在文献太多，许多主题都被排除了。最后，确定了一个更为合适的目标，即让读者拥有足够的专业知识来独立探索专业文献，并使现有的算法适应他们的应用。后一点很重要。理论上的问题都是一样的；每个应用场景都不同。寻求应用bandit算法的实践者需要理解理论中哪些假设是重要的，以及当假设改变时如何修改算法。希望这本书能提供这种理解。

这本书涵盖的内容有一定的深度。重点是对bandit问题算法的数学分析，但这不是一本传统的数学书，引理后面是证明、定理和更多引理。努力将设计算法的指导原则和分析的直觉包括在内。许多算法伴随着进一步实际经验的支持。

希望的读者熟悉基础分析、微积分和一些线性代数。这本书使用了计量理论概率理论的符号，但并不依赖任何深刻的结果。包含了一个专门的章节来介绍符号，并为需要的基本结果提供直观性。这一章对于度量理论的介绍来说是不寻常的，因为它强调了在标准技术论证之外使用σ-代数的原因。希望这能让读者相信测量理论是一个重要而直观的工具。有些章节使用了信息论和凸优化相关知识，为每一章专门写了一个简短的章节。

大多数章节都很短，应该在一个下午就能读懂。这本书的一些部分包含的内容并不真正是关于bandit的。已经学习过读者可以跳过，或者在必要时参考。后面的部分不会以任何实质性的方式建立在这些章节上。大多数章节以一系列笔记和练习结束。这些旨在加深直觉，突出各小节和文献之间的联系。

本书目录