什么是汤普森采样(Thompson sampling)?
多臂老虎机问题至今已经被研究了近一个世纪,在目前推荐系统、搜索排序等实时online的系统应用广泛。虽然最初的研究相当曲折,但现在有一大群的人任在研究它,每年发表几百篇论文。Bandit算法也在工业中的实际应用中找到了自己的应用场景,特别是在在线推荐系统中,数据很容易获得,自动化是唯一的扩展方式。
本书免费pdf下载地址: 新书-《Bandit问题-基础、算法、理论、应用》分享
本书最初打算写一本全面综合的内容,但现在文献太多,许多主题都被排除了。最后,确定了一个更为合适的目标,即让读者拥有足够的专业知识来独立探索专业文献,并使现有的算法适应他们的应用。后一点很重要。理论上的问题都是一样的;每个应用场景都不同。寻求应用bandit算法的实践者需要理解理论中哪些假设是重要的,以及当假设改变时如何修改算法。希望这本书能提供这种理解。
这本书涵盖的内容有一定的深度。重点是对bandit问题算法的数学分析,但这不是一本传统的数学书,引理后面是证明、定理和更多引理。努力将设计算法的指导原则和分析的直觉包括在内。许多算法伴随着进一步实际经验的支持。
希望的读者熟悉基础分析、微积分和一些线性代数。这本书使用了计量理论概率理论的符号,但并不依赖任何深刻的结果。包含了一个专门的章节来介绍符号,并为需要的基本结果提供直观性。这一章对于度量理论的介绍来说是不寻常的,因为它强调了在标准技术论证之外使用σ-代数的原因。希望这能让读者相信测量理论是一个重要而直观的工具。有些章节使用了信息论和凸优化相关知识,为每一章专门写了一个简短的章节。
大多数章节都很短,应该在一个下午就能读懂。这本书的一些部分包含的内容并不真正是关于bandit的。已经学习过读者可以跳过,或者在必要时参考。后面的部分不会以任何实质性的方式建立在这些章节上。大多数章节以一系列笔记和练习结束。这些旨在加深直觉,突出各小节和文献之间的联系。
本书目录
本书免费pdf下载地址: 新书-《Bandit问题-基础、算法、理论、应用》分享
往期精品内容推荐
伯克利-《神经技术导论课程2020(带字幕)》课程视频及ppt分享
短小精悍-机器学习核心概念、模型、基础知识点简明手册-免费分享
MIT新课-《6.824分布式系统2020春》视频及ppt分享
2020年新课-《TensorFlow 2.0初学者入门》视频分享