什么是汤普森采样(Thompson sampling)?

在看到一个解决Multi-armed bandit(多臂老虎机)问题时,提到Thompson sampling,谁能通俗的讲一下,维基百科上面讲的看不…
关注者
558
被浏览
295,876
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

多臂老虎机问题至今已经被研究了近一个世纪,在目前推荐系统、搜索排序等实时online的系统应用广泛。虽然最初的研究相当曲折,但现在有一大群的人任在研究它,每年发表几百篇论文。Bandit算法也在工业中的实际应用中找到了自己的应用场景,特别是在在线推荐系统中,数据很容易获得,自动化是唯一的扩展方式。


本书免费pdf下载地址: 新书-《Bandit问题-基础、算法、理论、应用》分享


本书最初打算写一本全面综合的内容,但现在文献太多,许多主题都被排除了。最后,确定了一个更为合适的目标,即让读者拥有足够的专业知识来独立探索专业文献,并使现有的算法适应他们的应用。后一点很重要。理论上的问题都是一样的;每个应用场景都不同。寻求应用bandit算法的实践者需要理解理论中哪些假设是重要的,以及当假设改变时如何修改算法。希望这本书能提供这种理解。

这本书涵盖的内容有一定的深度。重点是对bandit问题算法的数学分析,但这不是一本传统的数学书,引理后面是证明、定理和更多引理。努力将设计算法的指导原则和分析的直觉包括在内。许多算法伴随着进一步实际经验的支持。

希望的读者熟悉基础分析、微积分和一些线性代数。这本书使用了计量理论概率理论的符号,但并不依赖任何深刻的结果。包含了一个专门的章节来介绍符号,并为需要的基本结果提供直观性。这一章对于度量理论的介绍来说是不寻常的,因为它强调了在标准技术论证之外使用σ-代数的原因。希望这能让读者相信测量理论是一个重要而直观的工具。有些章节使用了信息论和凸优化相关知识,为每一章专门写了一个简短的章节。

大多数章节都很短,应该在一个下午就能读懂。这本书的一些部分包含的内容并不真正是关于bandit的。已经学习过读者可以跳过,或者在必要时参考。后面的部分不会以任何实质性的方式建立在这些章节上。大多数章节以一系列笔记和练习结束。这些旨在加深直觉,突出各小节和文献之间的联系。


本书目录



本书免费pdf下载地址: 新书-《Bandit问题-基础、算法、理论、应用》分享

往期精品内容推荐

迁移学习入门算法概述-HuggingFace

伯克利-《神经技术导论课程2020(带字幕)》课程视频及ppt分享

深度学习自然语言处理模型实现大集合(精简版<100行)

Melanie Mitche-概念、类比、常识与AI的未来

短小精悍-机器学习核心概念、模型、基础知识点简明手册-免费分享

MIT新课-《6.824分布式系统2020春》视频及ppt分享

胡伟-知识图谱融合方法概述分享

2020年新课-《TensorFlow 2.0初学者入门》视频分享

智能问答-问题生成(QG)历史最全论文、综述、数据集整理分享

最新免费书推荐-《因果推理算法概述》pdf免费下载

2020年最新深度学习模型、策略整理及实现汇总分享