【导读】悉尼科大徐亦达教授机器学习讲义,总共涵盖32个主题。2019创新工场DeeCAMP讲义,(softmax的故事) Softmax的属性, 估计softmax时不需计算分母, 概率重新参数化, Gumbel-Max技巧和REBAR算法
随机策略梯度定理 值函数方法在一些应用里发挥了重要的作用,但是也有一些局限: 值函数导向找到一个确定性的策略,但是通常最优策略是随机策略(sutton2000论述); 在值函数的估计中,一个小的变化就会导致动作是否被选择发生改变; Poli