谷歌发布最新看图说话模型，可实现零样本学习，多类型任务也能直接上手

会员服务 ·

谷歌发布最新看图说话模型，可实现零样本学习，多类型任务也能直接上手

2021 年 10 月 24 日 量子位

兴坤发自凹非寺
量子位报道 | 公众号 QbitAI

谷歌新推出了弱监督看图说话模型SimVLM，能够轻松实现零样本学习（zero-shot）任务迁移。

从文字描述图像到回答图片相关问题，模型无需微调也能样样精通。

对于一般的视觉语言预训练（VLP）模型，训练数据集中要求包含大量精准标签。而模型的任务迁移，则需要针对特定任务重新进行数据集的标签标注。

总结下来，就是标注数据集不仅耗时耗力，还不能多任务通用。

能不能开发出一种又简单又万能的VLP模型呢？

谷歌新开发的这款模型使用了弱监督学习进行模型训练，通过利用大量的弱对齐图像-文本对进行建模，简化了VLP的训练流程，大大降低了训练的复杂性。

SimVLM使用前缀语言建模的单一目标进行端到端训练，并直接将原始图像作为输入。这些设置允许模型对大规模的弱标记数据集进行利用，从而能够更好地实现零样本学习泛化效果。

SimVLM模型是如何实现的？

SimVLM模型的预训练过程采用了前缀语言建模(PrefixLM)的单一目标，接受序列的前缀作为输入，通过模型解码器来预测其延续的内容。

对于数据集中的图像-文本对，图像序列可视作其文本描述的前缀。

这种方法可以简化训练过程，最大限度地提高模型在适应不同任务设置方面的灵活性和通用性。

模型的主干网络，则使用了在语言和视觉任务上均表现突出的Transformer架构。

对输入的原始图像数据提取上下文patch，这里采用了ResNet卷积网络。

如上图所示：视觉模态中，图片被分割成多个patch，然后压缩为一维序列。文本模态语句则被映射到了一个表征向量中。

本模型使用了包含大约1.8B噪声的图像-文本对ALIGN训练集进行预训练，以此来实现更好的零样本学习泛化能力。

为了补偿训练集中的噪声影响，训练模型另外还使用了共800G的Colossal Clean Crawled Corpus (C4)数据集。

SimVLM模型基础性能如何？

模型的预训练完成后，需要在多模式任务中对模型进行微调，以测试性能。

这里用到的多模式任务有：VQA、NLVR2、SNLI-VE、COCO Caption、NoCaps和Multi30K En-De。

△性能指标：BLEU-4 (B@4)、METEOR (M)、CIDEr (C)、SPICE (S)

将SimVLM模型与现有的功能完善的模型进行比较，测试结果如上表所示，参与评估的SimVLM模型还包括了三种不同规模：8600万参数、3.07亿参数和6.32亿参数。

跨模式任务的测试结果中，SimVLM模型的性能表现最好（数据越大越好），除了CoCo Caption的B@4指标，在其他任务上都取得了新的SOTA结果，充分证明了该模型的先进性。

SimVLM模型零样本泛化

SimVLM模型在跨模式任务测试中可以取得不错的性能表现，那么它能否顺利执行零样本跨模态转移呢？

预训练的SimVLM模型仅对文本数据进行微调或完全不进行微调，通过图像字幕、多语言字幕、开放式VQA和视觉文本生成等任务，对模型进行测试。

测试结果如下图所示：

给定图像和文本提示，预训练模型无需微调即可预测图像的内容。

除此之外，未进行过微调的模型在德语字幕生成、数据集外的答案生成、基于图像内容的文字描述、开放式视觉问题回答等应用上均有不错的表现。

为了量化SimVLM的零样本学习性能，这里采用了预训练的固化模型在COCO Caption和NoCaps上进行解码，然后与监督标准基线（Sup.）进行比较。

从结果对比上来看，即使没有监督微调，SimVLM也可以达到有监督的训练质量水平。

作者介绍

本研究的第一作者是谷歌学生研究员王子瑞，现就读于卡内基梅隆大学，曾以第一作者身份在ICLR、EMNLP、CVPR等顶会上发表了多篇论文。

截止到2020年12月20日，他在SuperGLUE数据集上获得了第一个超过人类得分的SOTA性能（分数超过90），目前则被百度团队赶超，位居第二。

这一次开发的SimVLM也在6个视觉语言基准测试中达到了单模型SOTA性能，并实现了基于文本引导的零样本学习泛化能力。

参考链接：
https://arxiv.org/abs/2108.10904
https://ai.googleblog.com/2021/10/simvlm-simple-visual-language-model-pre.html
http://www.cs.cmu.edu/~ziruiw/

— 完 —

本文系网易新闻•网易号特色内容激励计划签约账号【量子位】原创内容，未经账号授权，禁止随意转载。

多位AI领域大咖出席，邀你见证智能科技新未来

量子位 MEET2022智能未来大会 定档11.30日， 李开复 博士、张亚勤教授、阿里巴巴副总裁贾扬清、IBM大中华区CTO谢东等多位行业重要嘉宾确认参加大会并发表主题演讲，期待再次为大家呈现精彩内容！

点击链接/图片，查看大会详情&报名参会吧~：MEET大会报名开启 | 李开复张亚勤等产学研大咖邀你共同见证智能未来

点这里👇关注我，记得标星哦～

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见~

登录查看更多

相关内容

零样本学习

关注 29

零样本学习是AI识别方法之一。简单来说就是识别从未见过的数据类别，即训练的分类器不仅仅能够识别出训练集中已有的数据类别，还可以对于来自未见过的类别的数据进行区分。这是一个很有用的功能，使得计算机能够具有知识迁移的能力，并无需任何训练数据，很符合现实生活中海量类别的存在形式。

【AAAI 2022】XLM-K：通过多语言知识库提高跨语言预训练模型

专知会员服务

27+阅读 · 2022年1月13日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

人大最新《基于Transformer 的视频语言预训练》综述论文

专知会员服务

47+阅读 · 2021年9月27日

专知会员服务

43+阅读 · 2021年7月17日

基于知识的零样本视觉识别任务综述

专知会员服务

51+阅读 · 2020年12月26日

华为等发布《视觉Transformer转换器》综述论文，21页pdf

专知会员服务

86+阅读 · 2020年12月25日

【NeurIPS 2020】视觉和语言表示学习的大规模对抗性训练

专知会员服务

15+阅读 · 2020年10月27日

【KDD2020】通用文档预训练模型LayoutLM：文档结构信息和视觉信息进行建模，让模型在预训练阶段进行多模态对齐。

专知会员服务

32+阅读 · 2020年8月23日

【ACL2020】端到端语音翻译的课程预训练

专知会员服务

6+阅读 · 2020年7月2日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

微软亚研提出VL-BERT：通用的视觉-语言预训练模型

机器之心

15+阅读 · 2019年9月3日

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

谷歌更强 NLP 模型 XLNet 开源：20 项任务全面碾压 BERT！

雷锋网

5+阅读 · 2019年6月20日

开发 | 谷歌更强NLP模型XLNet开源：20项任务全面碾压BERT！

AI科技评论

6+阅读 · 2019年6月20日

3分钟看懂史上最强NLP模型BERT

机器学习算法与Python学习

8+阅读 · 2019年2月27日

谷歌最强 NLP 模型 BERT 解读

雷锋网

7+阅读 · 2018年10月23日

韩国小哥哥用Pytorch实现谷歌最强NLP预训练模型BERT | 代码

量子位

8+阅读 · 2018年10月19日

阅读理解得分超越人类：谷歌推出最强预训练语言理解模型BERT

DeepTech深科技

5+阅读 · 2018年10月14日

教你用PyTorch实现“看图说话”（附代码、学习资源）

数据派THU

12+阅读 · 2018年4月25日

RescoreBERT: Discriminative Speech Recognition Rescoring with BERT

Arxiv

0+阅读 · 2022年2月7日

Grounding Answers for Visual Questions Asked by Visually Impaired People

Arxiv

0+阅读 · 2022年2月4日

MDETR -- Modulated Detection for End-to-End Multi-Modal Understanding

Arxiv

6+阅读 · 2021年4月26日

AlignTTS: Efficient Feed-Forward Text-to-Speech System without Explicit Alignment

Arxiv

3+阅读 · 2020年3月4日

LXMERT: Learning Cross-Modality Encoder Representations from Transformers

Arxiv

4+阅读 · 2019年12月3日

Unified Vision-Language Pre-Training for Image Captioning and VQA

Arxiv

8+阅读 · 2019年10月3日

How Does BERT Answer Questions? A Layer-Wise Analysis of Transformer Representations

Arxiv

4+阅读 · 2019年9月11日

Pre-Training with Whole Word Masking for Chinese BERT

Arxiv

11+阅读 · 2019年6月19日

An End-to-End Baseline for Video Captioning

Arxiv

6+阅读 · 2019年4月4日

Embedding Uncertain Knowledge Graphs

Arxiv

4+阅读 · 2018年11月26日

VIP会员