选自arXiv
作者:Lisa Lee等
机器之心编译
机器之心编辑部
巨大的探索空间阻碍了强化学习(RL)的发挥,这篇论文通过弱监督学习从广泛的目标空间中分离出有语义意义的表征空间,从而增强 RL 的学习速度与泛化性能。