在人工智能中,以威廉·R·汤普森(William R. Thompson)的名字命名的汤普森采样是一种启发式的选择行动,可以解决多臂匪徒问题中的勘探与开发难题。 它在于针对随机抽取的信念选择最大化预期奖励的行为。
参考链接
微信扫码咨询专知VIP会员