强化学习能解决石头剪刀布的问题吗?

强化学习对状态的价值评估想要量化,默认的前提是状态价值的比较关系可传递。那么像石头剪刀布这种相互克制的关系用强化学习解决会出现什么情况呢。
关注者
1
被浏览
510
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

self play,psro什么的了解一下