深度学习中门控机制和注意力机制是一种东西吗?

感觉二者都是生成一个权重map,乘到特征上,只不过一个是sigmoid或tanh,另一个是softmax罢了
关注者
56
被浏览
117,201
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

不是一个东西,区别很大。

门控机制使用sigmoid产生的weighting是很平滑的,连续的。

Softmax你别看他名字叫soft,好像也是输出0~1之间的一个概率,似乎也很平滑,其实因为他考虑了其他类别的概率,导致输出的概率非常生硬。sigmoid 可能会产生0.5,0.6之类的数字,他是从0到1平滑过渡的,但softmax产生的概率都是很极端的,很多都是0.001,0.99之类的,训练到后面干脆就突破浮点精度,直接就输出0和1了。

所以softmax就跟开关一样的,关掉的那些通道,可以认为是被完全堵死的。

编辑于 2023-05-26 22:20・IP 属地德国