论文阅读:Learning in the Frequency Domain

最近真的有点懒 漫无目的在家待了半年多了 没有开学导致寒假连着暑假 但任务还是一个连着一个 今天打算简要记录一下一篇来自CVPR2020 新的论文 看到蛮多博客讲得挺详细明了 故不采取以前详细的叙述过程 只简单记录自己的理解(实则懒)

论文题目:《Learning in the Frequency Domain》
论文地址:https://arxiv.org/pdf/2002.12416.pdf
论文翻译参考:
CVPR2020:Learning in the Frequency Domain(翻译)(一)
CVPR2020:Learning in the Frequency Domain(翻译)(二)
论文阅读参考:
CVPR2020- 频域学习一半的数据输入,提升MASK RCNN | Learning in the Frequency Domain频域深度学习 Learning in the Frequency Domain

Background

Existing neural networks mainly operate in the spatial domain with fixed input sizes.For practical applications, images are usually large and
have to be downsampled to the predetermined input size of neural networks. Even though the downsampling operations reduce computation and the required communication bandwidth, it removes both redundant and salient information obliviously, which results in accuracy degradation
现有的神经网络主要在固定输入尺寸的空间域内运行。在实际应用中,图像通常很大,必须向下采样到预定的神经网络输入大小。尽管下行采样操作减少了计算量和所需的通信带宽,但它同时在不影响冗余和显著信息的前提下消除了冗余和显著信息,从而导致精度下。
也就是说,在实际应用上会因为需要对图像进行下采样而导致部分信息消失,对实验的精度产生了一定的影响。
本文所提出的方法正是围绕着这个弊端出发的。

Work

Do?
a.We propose a method of learning in the frequency domain (using DCT coefficients as input), which requires little modification to the existing CNN models that take RGB input.
b.We show that learning in the frequency domain better preserves image information in the pre-processing stage than the conventional spatial downsampling approach
c.We analyze the spectral bias from the frequency perspective and show that the CNN models are more sensitive to low-frequency channels than high-frequencychannels, similar to the human visual system (HVS)
d.We propose a learning-based dynamic channel selection method to identify the trivial frequency components for static removal during inference
• 我们提出了一种频域学习方法(使用DCT系数作为输入),它对现有的CNN模型几乎不需要修改(这些模型采用RGB输入)
• 我们发现,在频域学习比传统的空间下采样方法更好地保留了前处理阶段的图像信息。
• 我们从频率的角度分析了频谱偏差,发现CNN模型对低频频道比对高频频道更敏感,类似于人类视觉系统(HVS)。
• 我们提出了一种基于学习的动态信道选择方法来识别琐碎的频率成分,以便在推理过程中进行静态去除。

Model

先来看几个问题 通过问题来讲模型
1.为什么需要频域?和传统的方法对比区别在哪里?
先上图

上图展示了空间域与频域输入模型的不同:
1.上图的第一行为传统的方法,即在空间域进行
在传统方法中,通常在CPU上对高分辨率RGB图像进行预处理,然后将其传输到GPU / AI加速器以进行实时推断。 由于RGB格式的未压缩图像通常较大,因此对CPU和GPU / AI加速器之间的通信带宽的要求通常很高。为了降低计算成本和通信带宽需求,将高分辨率RGB图像下采样为较小的图像,这通常会导致信息丢失和推理精度降低。
2.上图的第二行为本文提出的方法,即在频域进行
在本文提出的方法中,高分辨率RGB图像仍在CPU上进行预处理。 但是,它们首先转换到YCbCr颜色空间,然后转换为频域。 这与JPEG等最广泛使用的图像压缩标准相吻合。 同一频率的所有分量都被分组到一个channel中。 这样,生成了多个channel。 某些channel对推理准确性的影响大于其他channel。 因此,建议仅保留最重要的频道并将其传输到GPU / AI加速器进行推理。
与传统方法相比,论文所提出的方法需要更少的通信带宽并同时获得更高的精度。

2.频域的预处理过程是怎么样的?
继续先上图:

从图片可以看出,整个预处理的过程包括六部分:
1.spatial resize and crop:
图像变换大小、裁剪和翻转与RGB空间域输入相同
2.DCT transform:
将输入图像由RGB空间变换到YCbCr空间,然后由DCT变换到频域
3.DCT reshape:
将相同频率的二维DCT系数分组到一个信道,形成三维DCT立方体
4.DCT channel select:
选取影响较大的频率通道子集
5.DCT concatenate:
将YCbCr颜色空间中选取的频率通道拼接在一起,形成一个张量
6.DCT normalize:
利用训练数据集计算的均值和方差对每个频率通道进行归一化处理

3.如何将空间域模型转换为频域模型呢?
论文证明了频域中的输入特征可以以最小的修改应用于空间域中开发的所有现有CNN模型。具体来说,只需要删除输入的CNN层并保留剩余的残差block。第一个残差层用作输入层,并且需要修改输入通道的数量以适合DCT系数输入的尺寸。 这样,修改后的模型可以保持与原始模型相似的参数计数和计算复杂度。
如下图所示,为了便于理解,我们以ResNet-50作为基础的图像分类举例。ResNet-50通常接受的图片输入尺寸为224x224. 在经过一次convolutional layer (stride=2)和pooling之后,此时网络的feature map的尺寸为56x56,和我们产生的频率信号的feature map尺寸吻合。我们可以将192个56x56的频域feature map全部或者部分直接接在ResNet-50的第一个Residue Block之前,从而达到不改变ResNet-50的结构而实现从频域做机器识别的目的。
如果我们从192个feature map中选取的64个,则和一个标准的ResNet-50在这一层的feature map个数相同,则网络结构和ResNet-50达到了完全一致,即移除了传统ResNet-50中的三个输入层(灰色虚线框),以接受56×56×64 DCT输入。 channel数值为64,该值可以根据通道选择而变化。

值得注意的是,由于我们做了8x8的DCT变换,我们实际输入的图片大小为448x448,是标准ResNet-50输入(224x224)的两倍。正因为我们提高了输入图片在空间域的分辨率,我们在后续的实验中可以得到更好的识别精度。

4.基于学习的通道选择
由于输入特征的不同channel处于不同的频率,作者推测某些频率channel对后续任务(例如图像分类,对象检测和实例分割)更有益,并且删除琐碎的频率channel不会导致性能下降。 因此,作者提出了一种基于学习的通道选择机制。 这一功能的模块叫dynamic gate model,实际上就是SE-Net中提出的SE-Block,该模块为每个channel分配一个二进制分数。 分数为零的输入channel从网络中分离出来。 因此,减小了输入数据的大小,从而降低了域变换和通信带宽需求的计算复杂度。

上图展示了利用gate来选择重要的feature map的方法。原始所有频率分量组成的feature map的尺寸为WxHxC,其中C代表了feature map的个数,在实验中使用的是C=192(即图中的Tensor1). 每个feautre map通过average pooling将会生成一个1x1xC的特征向量(Tensor 2),其中每个数值代表了对应feature map。
每一对数字表示这个对应的feature map是否重要,如果index为0的数字比index为1的数字更大,那么这个feature map被认为不重要,整个feature map将会被忽略而不参与后续DNN的计算;反过来说,如果index为1的数字比index为0的数字更大,那么这个feature map被认为重要,将会参与后续DNN的计算。这个操作等效于使用了一个开关(gate)来控制每一个频率信息组成的feature map是否流通到后续的计算中
(补充:Tensor3->Tensor4,由11C->112C,其中2是门控关或者开的概率。Tensor4的192个通道中的每一个通道的两个数字都被归一化,作为采样为0或1的概率,然后点乘以输入频率通道,得到图4中的Tensor5)
由于频率分量对应的开关被选为通过的数量决定了输入DNN的数据带宽,我们把选择为通过的开关的比例作为loss function中的一项,另一项就是对应机器学习任务中原始的loss。通过最小化loss function来实现机器学习任务精度和输入DNN数据带宽的平衡。
X_i是CNN模型在频域(C = 192)中的输入channel。 令F表示每个频率信道X_i的gate model,损失函数如下:
L_{Acc}是与准确性相关的损失。 λ是一个超参数,表示调节项的相对权重.

Experiments

1.

1.与高频频道(索引较大的框)相比,低频频道(索引较小的框)的选择频率更高。 这表明对于视觉推理任务而言,低频通道通常比高频通道更具信息性
2.与色度分量Cb和Cr中的频道相比,模型更频繁地选择亮度分量Y中的频道。 这表明亮度分量对于视觉推理任务更具参考价值
3.热图在分类和分割任务之间共享一个公共模式。 这表明上述两个观察结果并非特定于一项任务,很可能对更高层次的视觉任务具有普遍性
4.这些观察结果暗示CNN模型可能确实表现出与人类视觉类似的特征,并且针对人眼的图像压缩标准(例如JPEG)也可能适用于CNN模型。

使用ImageNet作为数据集,其中包括大约128万张训练图像和5万张测试图像,总共1000个类别。我们使用了ResNet-50 和MobilenetV2 作为DNN的网络结构

实例分割(instance segmentation)结合了物体检测(object detection) 和语义分割(semanticsegmentation)的需求,它的任务是检测出图像中的每个物体对应的像素点,同时将每一个检测出的物体分类。如下图所示,实例分割任务需要检测出物体(例如,人,足球)的boundingbox,还需要在这个bounding box中将属于该物体的像素标注出来。

使用了COCO的数据集,其中包含了约10万张训练图像和5千张测试图像。我们使用了Mask RCNN 作为深度神经网络结构。Mask RCNN首先会检测出物体的bounding box,然后在bounding box内部的每个像素做二分,确定其是否属于该物体。

结果表明,与传统的空间降采样方法相比,频域学习方法在预处理阶段能更好地保存图像信息,从而提高了图像的精度。而基于学习的动态信道选择方法,也通过实验证明了CNN模型对低频信道比对高频信道更敏感。


今日偷懒完成 八月快乐!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270