在很多深度学习模型中都有门控这个东西，到底是怎么控制呢？计算相似度还是怎样呢？

Question

在很多深度学习模型中都有门控这个东西，到底是怎么控制呢？计算相似度还是怎样呢？

关注者

26

被浏览

32,431

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 1 个回答

2022年11月11日补充了一点想法

2019年11月06日补充几篇文章

我简单说下我的理解。

说是门控直接的想法就是lstm，gru这一类的操作。

我是做视觉方向的，其他的见到的都是更多类似于注意力机制的处理。这种注意力机制的计算相对而言更简单一些。

我的理解，计算相关性也算是一种注意力的计算呢。

粗浅理解，欢迎指出问题。可能之后会补充些材料。

2019年11月06日补充：

我隐约记得，有文章是使用门控控制不同的block的使用，待我有时间找下。

2022年11月11日补充：

实际上门控和注意力机制的内在运算差异不大。二者可能在外在形式上略有偏重。注意力可能更强调像素级的一个控制，而门控可能粒度更粗一些，例如特征啦，模块啦。
最近基于门控的概念的工作其实也不少，大多题目名字里会直接提到。也有和 Transformer 概念相结合的，例如HorNet。

Gated Feedback Refinement Network for Coarse-to-Fine Dense Semantic Image Labeling

这几个是一系列工作：

Label Refinement Network for Coarse-to-Fine Semantic Segmentation（基础版本）
Gated Feedback Refinement Network for Dense Image Labeling（CVPR17的）
Gated Feedback Refinement Network for Coarse-to-Fine Dense Semantic Image Labeling（这个应该是转投期刊的版本）

这里的门控没啥特殊处理，直接两个特征相乘得到的Mf就是所谓门控特征。

A Bi-directional Message Passing Model for Salient Object Detection

这是显著性检测的一篇文章。

其中的G就是一个门控单元。这里利用对特征自身计算一个sigmoid来实现了一种类似于“传输率”的设定。

GFF: Gated Fully Fusion for Semantic Segmentation

这里的gated map是那个G，G的计算有如下描述：

each gate map G_l=\text{sigmoid}(w_i∗X_i) is estimated by a convolutional layer parameterized with w_i \in \mathbb{R}^{1 \times 1 \times C_i} .
知乎的编辑器什么情况，在全屏模式下这里的公式编辑了好几次，提交修改后就被吞了？正常模式到是又没事了。

Context Contrasted Feature and Gated Multi-Scale Aggregation for Scene Segmentation

这篇文章的一个重点是其中的gated sum ，具体运算过程如下图：

感觉具体过程操作还是蛮复杂的，之后看明白了补充下。

编辑于 2022-11-11 10:27・IP 属地山西

查看全部 1 个回答