【笔记】探索简单孪生网络表示学习

会员服务 ·

【笔记】探索简单孪生网络表示学习

2020 年 12 月 7 日 深度学习自然语言处理

点击上方，选择星标或置顶，每天给你送干货

！

阅读大概需要10分钟

跟随小博主，每天进步一丢丢

每日英文

You can nearly always enjoy something if you make up your mind firmly that you will.

只要你下定决心做某件事，总能从中找到乐趣。

Recommender：王萌

作者：StayGold

链接：https://zhuanlan.zhihu.com/p/321642265

编辑：王萌 (深度学习自然语言处理公众号)

论文

题目：Exploring Simple Siamese Representation Learning

来源：arXiv

原文链接：https://arxiv.org/pdf/2011.10566.pdf

来自：学习NLP的皮皮虾

Abstract

孪生网络的结构是无监督图像表示学习中的一个通用的结构，通过最大化同一个图像两个增强版本的相似度，同时通过一些方法来避免坍缩（collapsing）的问题。本文通过实验结果证明了即使是最简单的孪生网络也可以用于图像表示无监督预训练，并取得较好的效果。相比于其它工作，本文证明了以下组件是不必要的：

图像负样本对；
很大的batch size；
动量编码器

根据实验结果，确实发现了坍缩到固定表示的问题，但通过一个stop-gradient的操作能有效避免坍缩。随后本文还提出了一个假设来解释stop-gradient的效果，并通过实验验证了该假设。本文的简单方法（孪生网络+stop-gradient）在图像无监督表示学习上能取得和目前SOTA相近的效果。

Introduction

近一年出现了许多无监督、自监督图像表示学习的工作（MoCo、SimCLR、SwAV、BYOL等）。尽管它们的出发点、创新点各有不同，但大部分模型都遵从孪生网络的框架。即通过一个共享的编码器网络对同一个图像的不同增强版本（两个或多个）编码，使得它们具有较高的相似度。孪生网络是比较实体之间相似度的一个非常自然的工具。

但是，如果只是简单的最大化相似样本编码后的距离，孪生网络的输出会坍缩到某个固定常量。在这种情况下，网络输出的所有的表征都近似相同，因此损失降到最低，但准确率近乎为零。目前有一些策略来避免这一点，比如：

对比学习通过引入负样本，使得模型在最大化相同图像的相似度的同时，也得和负样本远离；
SwAV引入聚类的目标，达到类似的效果；
BYOL只包含正样本，但使用了动量编码器。

本文证明了即使没有上面三个策略，简单的孪生网络（称为SimSiam）也能达到类似的效果，只需要一个stop-gradient的操作。

作者认为，孪生网络很可能是目前的相关工作能够成功的关键因素，因为它从模型结构上引入了建模“不变性（invariance）”的归纳偏差（inductive bias）。

Method

本文的结构很简单，包含：

一个参数共享的编码器，通过ResNet实现；
一个非线性映射网络，通过MLP实现，称为predictor；
stop-gradient操作，放在没有predictor的另一侧；

首先随机采样图像的两个增强版本和；随后，通过两侧的网络分别对其进行编码：、；最后，将两个向量归一化后，最小化下面的负余弦距离损失：

进一步可以定义出对称的版本：

上面损失的最小值就是 -1。

一个非常重要的、能让模型work的操作是stop-gradient操作，作者使用来表示这一操作，这样，上面的两个损失分别变成了：

算法的伪代码如下：

Baseline设置：

优化器默认使用SGD，学习率根据batch_size缩放，256时为0.05；学习率通过cosine衰减，weight decay为0.0001；SGD动量设为0.9；
预测MLP为两层，中间层包含BN，维度为512，输入输出维度为2048；

Empirical Study

1. Stop-gradient的作用

图左呈现了训练损失，如果没有stop-grad，损失很快到达0；而使用stop-grad的话，损失在不断下降；
第二张图显示了输出表示的方差，如果没有stop-grad，方差近乎为0（发生了坍缩）；而使用stop-grad能让方差为，差不多就是表示均匀分散在维空间的单位超球平面上；
第三张图展示了KNN分类的准确率，可以看到没有stop-grad的话，KNN的准确率近乎为0；若加上stop-grad，则准确率随训练稳定上升。

2. Predictor的作用

为了验证Predictor的效果，作者对比了三种变体：

去掉Predictor：发生了坍缩（从训练公式上就可以推出来，和不包含stop-grad的设定等价了）；
随机初始化Predictor并固定：模型无法收敛，损失很高；
Predictor部分的learning rate不衰减：获得了更高的结果。

3. Batch Size的影响

上图验证了batch size的影响，在256和512上获得了最好的效果，过大的batch size反而会损害性能，显示了本方法不依赖于过大的batch size。

4. Batch Normalization

上图验证了BN的效果，实验证明在projection（ResNet内）网络中的隐层和输出层，在predictor网络中的隐层加BN效果最好。

5. Similarity Function

这里验证了损失函数的比较。其它所有因素保持一致。实验证明了对于cross-entropy也能work，证明了坍缩现象和损失函数无关。

6. Symmetrization

这里通过消融分析，说明了使用对称还是不对称的损失函数（3或4式）并不影响模型的收敛情况。作者倾向于认为对称的版本加强了数据，因此做了一个非对称（2x）的实验，发现能在1x的基础上进一步提升。

Hypothesis

基于上面的实验结果，本文提出了一个假设，来解释SimSiam隐式优化的目标。作者认为SimSiam类似于EM（Expectation-Maximization）算法，它隐式地和两组参数相关联，并通过一种迭代的方式分别优化这两组参数。stop-gradient存在的作用就是引入第二组可优化参数。

考虑如下的损失函数形式：

这里的表示图像增强操作。这里引入了第二个可优化变量，即。这里的表示索引，即通过图像找到对应的那个，它不再必须是神经网络的输出，而需要将其看作是优化问题中的一个参数。优化目标就是：

这里的优化目标同时和和关联，就和k-means有点相似。在k-means中，也有两组需要优化的参数：一组是聚类中心（k个类别的聚类中心），这类似于优化目标中的；另一组是“每个样本分别属于哪个聚类”，这就类似于上面优化目标中的（即对于每一张增强的图像都有一个与之对应的表征）。k-means算法中，优化上面两组参数是迭代进行的，即交替地计算每个类别的聚类中心，随后计算每个样本的聚类所属情况，直到训练稳定。上面的优化目标也类似，迭代进行以下两步：

上面公式中，代表迭代到了第几次，表示赋值操作。

优化(7)式时，就使用神经网络梯度回传、更新；优化(8)式时，就使用如下的重新计算、赋值更新操作：

上式显示了，的更新是通过计算不同增强版本的图像的表示期望来得到的。

作者认为，SimSiam实际上模拟了上面(7)、(8)式的一步更新操作，只不过公式(9)中的采样只做一次：

将其代入公式(7)的子优化问题，得到：

上面的公式其实就是SimSiam的结构加上stop-gradient操作。

Predictor

作者接下来阐述了引入predictor 的目的。根据定义，期望最小化。最优的需要满足。在公式(10)的优化中，因为只采样一次，期望被忽略了，而引入就可能通过神经网络的拟合能力去学习“预测期望”。

Proof of concept

作者构造了两个实验用来证明上述假设的正确性：

在同一个迭代内（公式(7), (8)），执行多步的SGD更新；
将Predictor去掉，然后通过一个滑动平均作为优化的手段。

对于第一个实验，发现在同一个迭代内更新多步SGD能进一步提升性能：

对于第二个实验，发现去掉，引入滑动平均更新后，模型也能取得55%的准确率，和上面的表只取得0.1的准确率相比，说明了上述假设大致是正确的。

Comparisons

1. ImageNet

在ImageNet linear evaluation上，与目前SOTA的无监督表示学习方法对比：

本文的方法在100 epoches的时候达到了最优效果，尽管随着epoch数增加，逐渐落后于其它方法。同时相比SimCLR，在任何epoch数的情况下均有提升。

2. Transfer Learning

在目标检测任务上迁移，发现本文的方法对比其它方法也是有竞争力的：

3. 与其他方法的对比：

上图比较了目前的一些无监督图像表示预训练的方法，本文的SimSiam可以视为是公共结构，是其它方法减去某些组件后的共同的结构。

与SimCLR对比

SimSiam可以视为是SimCLR去掉负样本。为了进一步对比，作者对SimCLR加上了predictor和stop-grad结构，效果没有提升：

与SwAV对比

SimSiam可以视为SwAV去掉online clustering。作者同样对SwAV做了一些对比：

加入predictor依然没有提升，同时去掉stop-grad之后导致模型无法收敛。

与BYOL对比

SimSiam可以视为是BYOL去掉了动量编码器。如上面所说，公式(8)也可以通过其它优化器来优化，例如基于梯度的优化器（而不是简单赋值）。这会导致相对平滑地更新。动量编码器也类似地起到了这种效果，因此BYOL效果较好。作者认为公式(8)的其它优化方法可以作为未来的研究方向。

推荐两个专辑给大家：

专辑 | 李宏毅人类语言处理2020笔记

专辑 | NLP论文解读

专辑 | 情感分析

    
    
      
     
     
       
    
    
      
    
    
      
     
     
       整理不易，还望给个在看！

登录查看更多

相关内容

孪生网络

关注 1

【WSDM2021】基于交叉融合的无监督属性网络嵌入

专知会员服务

26+阅读 · 2020年12月17日

【FB陈鑫磊-何恺明】SimSiam：消除表征学习“崩溃解”，探寻对比表达学习成功之根源

专知会员服务

20+阅读 · 2020年11月26日

【KDD2020】解决基于图神经网络的会话推荐中的信息损失

专知会员服务

32+阅读 · 2020年10月29日

【KDD2020】半监督迁移协同过滤推荐

专知会员服务

20+阅读 · 2020年10月21日

KDD2020 | 对比学习和负采样技术专题

专知会员服务

75+阅读 · 2020年9月1日

【KDD2020-UCLA-微软】GPT-GNN：图神经网络的预训练

专知会员服务

63+阅读 · 2020年8月19日

【AAAI 2019】双曲异构信息网络嵌入，Hyperbolic Heterogeneous Information Network Embedding

专知会员服务

60+阅读 · 2020年6月28日

2019必读的十大深度强化学习论文

专知会员服务

59+阅读 · 2020年1月16日

【清华大学】Bert 简介，Bidirectional Encoder Representations from Transformers，21页ppt

专知会员服务

79+阅读 · 2019年12月29日

【清华大学博士论文】面向社会计算的网络表示学习，涂存超

专知会员服务

76+阅读 · 2019年11月7日

IJCAI20 | 保持网络模式的异质信息网络表示学习

专知

8+阅读 · 2020年8月24日

对比自监督学习

深度学习自然语言处理

35+阅读 · 2020年7月15日

论文浅尝 | 使用孪生BERT网络生成句子的嵌入表示

开放知识图谱

25+阅读 · 2019年10月31日

【论文笔记】基于强化学习的人机对话

专知

20+阅读 · 2019年9月21日

【论文笔记】基于BERT的知识图谱补全

专知

116+阅读 · 2019年9月15日

GAN用于无监督表征学习，效果依然惊人……

机器之心

12+阅读 · 2019年7月9日

用孪生网络、对比损失和三重损失进行人脸识别的单样本学习

AI前线

16+阅读 · 2019年6月17日

深度思考 | 从BERT看大规模数据的无监督利用

PaperWeekly

11+阅读 · 2019年2月18日

CVPR 2018 | 商汤科技Spotlight论文详解：基于孪生区域推荐网络的高性能单目标跟踪

商汤科技

23+阅读 · 2018年6月11日

孪生网络实现小数据学习！看神经网络如何找出两张图片的相似点

机器人圈

35+阅读 · 2017年7月18日

Outdoor inverse rendering from a single image using multiview self-supervision

Arxiv

0+阅读 · 2021年2月12日

Representation Matters: Offline Pretraining for Sequential Decision Making

Arxiv

0+阅读 · 2021年2月11日

Predicting Customer Lifetime Values -- ecommerce use case

Arxiv

0+阅读 · 2021年2月10日

Enquire One's Parent and Child Before Decision: Fully Exploit Hierarchical Structure for Self-Supervised Taxonomy Expansion

Arxiv

8+阅读 · 2021年1月27日

M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

Arxiv

8+阅读 · 2020年6月1日

Graph Enhanced Representation Learning for News Recommendation

Arxiv

24+阅读 · 2020年3月31日

Evolving Losses for Unsupervised Video Representation Learning

Arxiv

23+阅读 · 2020年2月26日

A User-Centered Concept Mining System for Query and Document Understanding at Tencent

Arxiv

6+阅读 · 2019年5月21日

A Comprehensive Comparison of Unsupervised Network Representation Learning Methods

Arxiv

5+阅读 · 2019年3月19日

Unsupervised Multilingual Word Embeddings

Arxiv

4+阅读 · 2018年9月6日

VIP会员