超越CLIP！谷歌发布首个大规模MoE架构的视觉语言模型

会员服务 ·

超越CLIP！谷歌发布首个大规模MoE架构的视觉语言模型

2022 年 6 月 14 日 夕小瑶的卖萌屋

文 | 明敏（发自凹非寺）
源 | 量子位

多模态模型常见，但是基于稀疏化的还是头一个。谷歌带来最新成果LIMoE，首次将稀疏化方法用在了图像文本混合模型上。要知道，随着大模型参数呈指数级增加，训练成本也是一路飙升。

所以如何降低训练成本，成为了目前学界重点关注的一个问题。

谷歌想到的办法，不是拼硬件，而是从模型本身入手。利用稀疏化的方法，让每次输入只需激活部分网络就能完成任务。

它们在模型内部设置了很多“专家”，每个“专家”只需处理对应部分的输入，根据任务情况按需使用“专家”就好。这样一来，尽管模型容量很大，但是计算成本并没有暴增。而且还不会降低性能。新方法LIMoE零样本学习任务中，可是直接超越了CLIP。怪不得网友高呼：

快分享给我们API！

让不同“专家”处理不同任务

对于深度学习来说，能同时处理文本图像任务其实已经不稀奇。不过过去常见的多模态学习方法，往往是单个输入就需要激活整个网络。谷歌这次提出的新方法，最大亮点就是首次在这一领域采用了稀疏化模型。

稀疏化的方法便是无需让整个模型来处理所有的输入。通过对神经网络进行划分，它让神经网络也“专业对口”，不同的子模型只处理固定类型的任务或数据。

但也不是完全割裂开来，模型内部仍有可共享的部分。此次基于的模型是MoE（Mixture-of-Experts layer），它被称为专家混合模型。也就是在Transformer架构的基础上，加设了“专家层”。

它是一个并行的FNN，取代了原本的前馈网络。这里的“专家”，也就是模型内部的不同子模型。每个子模型专门用于不同的输入。

每一层中的专家由门控网络控制，该网络根据输入数据激活专家。对于每个标记，门控网络选择最合适的专家来处理数据。

此次新提出的LIMoE，其实就是让MoE能同时处理图像文本。具体来看，就是让LIMoE进行对比学习。

在利用大量图像-文本对训练时，网络内部的图像模型提取图像表示，文本模型提取文本表示。针对相同的图像-文本对，模型会拉近图像和文本表示的距离。

反之，对于不同的图像-文本对，则会让相应的表示彼此远离。这样一来的直接好处，就是能实现零样本学习。比如一张图像的表示更接近文本“狗”的表示，那么它就会被归类为狗。这种思路可以扩展到数千种情况。

实际上，CLIP和ALIGAN采用的都是这个思路，它们在ImageNet数据集上的精度分别是76.2%、76.4%。而LIMoE-L/16可以达到78.6% ，已经超过了CLIP。未经过预训练的LIMoE H/14则能达到84.1%的精度。

而在LIMoE的专家层中，谷歌表示还发现了一些有趣的现象。比如在训练设置中，图像标记比文本标记要多很多，因此所有专家都会在在任务中多少处理些图像。

只不过有的会主要处理图像，有的主要处理文本，或者二者兼具。还有在大多数情况下，都会有一个专家来处理所有包含文本表示的图像patch。

除了性能上的提升，使用稀疏化模型的好处还体现在降低计算成本上。因为“多专家”的模式意味着，尽管多设了很多子模型，模型容量显著增加，但是实际计算成本并没有明显变化。

如果一次任务中只使用了一个子模型，那它的成本和标准Transformer的差不多。比如LIMoE-H/14总共有5.6B参数，但是通过稀疏化，它只会使用每个token的675M参数。

One More Thing

稀疏化模型一直是谷歌深度研究的一个方向，已经提出了MoE、GLaM在内的多个模型。这次LIMoE也不是谷歌第一次魔改MoE。

去年6月，他们提出了V-MoE，是一种新型的视觉架构，今年已将全部代码开源。

参考链接：
https://ai.googleblog.com/2022/06/limoe-learning-multiple-modalities-with.html

后台回复关键词【入群】

加入卖萌屋NLP、CV、搜广推与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

登录查看更多

相关内容

稀疏化

关注 0

【南洋理工-CVPR2022】视觉语言模型的条件提示学习

专知会员服务

34+阅读 · 2022年3月13日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

多模态预训练模型简述

专知会员服务

113+阅读 · 2021年4月27日

[CVPR 2021] 序列到序列对比学习的文本识别

专知会员服务

29+阅读 · 2021年4月14日

【CVPR2021】一种基于知识蒸馏的弱监督图像文本匹配模型

专知会员服务

35+阅读 · 2021年4月8日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

Geoffrey Hinton最新SIGIR2020视频报告：下一代神经网络-无监督对比学习

专知会员服务

50+阅读 · 2020年7月27日

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

零样本学习超越CLIP！谷歌提出首个多模态稀疏化模型LIMoE，还能降低计算成本

量子位

0+阅读 · 2022年6月13日

纯MLP在下游任务上欠佳？Meta AI等提出稀疏MLP，超越transformer

机器之心

0+阅读 · 2022年4月16日

视觉Prompt来了，效果超越微调！

夕小瑶的卖萌屋

2+阅读 · 2022年3月26日

稀疏大模型简述：从MoE、Sparse Attention到GLaM

夕小瑶的卖萌屋

14+阅读 · 2022年3月22日

90.35%准确率！谷歌刚刚开源最大视觉模型V-MoE的全部代码！150亿参数！

CVer

0+阅读 · 2022年1月21日

150亿参数，谷歌开源了史上最大视觉模型V-MoE的全部代码

极市平台

0+阅读 · 2022年1月16日

一个既能做CV任务，也能做NLP任务的Transformer模型！谷歌&UCLA提出统一的基础模型

极市平台

0+阅读 · 2022年1月6日

单一ViT模型执行多模态多任务，谷歌用协同训练策略实现多个SOTA

机器之心

1+阅读 · 2021年12月21日

1.2万亿参数：谷歌通用稀疏语言模型GLaM，小样本学习打败GPT-3

PaperWeekly

0+阅读 · 2021年12月10日

2600亿参数，60多项任务突破，全球最大中文单体模型鹏城-百度·文心发布

机器之心

0+阅读 · 2021年12月8日

高容错能力的阵列纠删码模型研究

国家自然科学基金

2+阅读 · 2015年12月31日

神经形态多核处理器的架构模型研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于胶质母细胞瘤干细胞的高通量抗肿瘤药物筛选技术的建立和应用

国家自然科学基金

0+阅读 · 2014年12月31日

基于单语语料的无监督统计机器翻译模型研究

国家自然科学基金

1+阅读 · 2013年12月31日

迁移学习在图像分类中的应用研究

国家自然科学基金

8+阅读 · 2013年12月31日

火星地形测绘多源数据联合平差与密集匹配技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于稀疏学习和中继样本的婴幼儿脑部磁共振图像配准研究

国家自然科学基金

0+阅读 · 2013年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

维、哈、柯多文种信息检索技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

面向英汉双向跨语言图像检索的文本分析关键技术研究

国家自然科学基金

0+阅读 · 2011年12月31日

Predicting spatial distribution of Palmer Drought Severity Index

Arxiv

0+阅读 · 2022年8月31日

Lifelong Learning for Question Answering with Hierarchical Prompts

Arxiv

0+阅读 · 2022年8月31日

Image as a Foreign Language: BEiT Pretraining for All Vision and Vision-Language Tasks

Arxiv

0+阅读 · 2022年8月31日

Structure-Grounded Pretraining for Text-to-SQL

Arxiv

0+阅读 · 2022年8月31日

EDTER: Edge Detection with Transformer

Arxiv

11+阅读 · 2022年3月16日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

Your "Labrador" is My "Dog": Fine-Grained, or Not

Arxiv

27+阅读 · 2021年2月17日

Less is More: ClipBERT for Video-and-Language Learning via Sparse Sampling

Arxiv

10+阅读 · 2021年2月11日

Learning in the Frequency Domain

Arxiv

11+阅读 · 2020年3月12日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

VIP会员