我不看好data2vec这类多模态融合的研究

会员服务 ·

我不看好data2vec这类多模态融合的研究

2022 年 2 月 16 日 夕小瑶的卖萌屋

文 | 谢凌曦@知乎

作者注：所有内容均只代表作者本人观点，均有可能被推翻，二次转载务必连同声明一起转载。谢谢！

最近data2vec在twitter和知乎上小火了一把，有人说data2vec是个不错的工作，也有人说data2vec最成功的就是名字。

我的一句话评价：在当前的技术储备下，我不太看好这种多模态融合的路线会走太远。

先说文章。主体方法一句话就可以说清楚：利用masked data modeling的方式对语音、文本、图像进行统一预训练。

至于用EMA来构造teacher然后监督student等常规操作，与许多已有方法相似，因此也不再赘述。和之前若干文章一样，作者也毫不避讳，甚至有些骄傲地宣传该方法非常简单，并且可以处理三种不同模态。

实验部分因为要兼顾三种模态，所以每个部分都比较短，其中视觉部分略显敷衍：只做了ImageNet上的fine-tuning——然而在我看来，fine-tuning这个setting真的没有太大价值：预训练模型的两个最重要的能力（小样本、域迁移）都没有得到考验！

总的来讲，与近期视觉领域的若干文章一样，data2vec使用了极简架构，达到了比较solid的实验结果，因而是一篇值得被ICML接受的文章。

顺便说句题外话感慨一下：最近做预训练的文章，都流行“方法1页，实验4-5页”的暴力写作风格，似乎要向业界传递一个信号：方法不重要，数据和算力才是。

回想十年前，方法和实验长度1:1的文章，都时常要被质疑方法太简单。时代确实不一样了。

问题是，现在这样真的对吗？或者说，这样真的能解决长远的问题吗？我们知道，不同模态的数据具有十分不同的性质。除了语音和文本这种对应性很强的跨模态，如果我们考虑文本和图像，就会发现两者的对应关系复杂而多变。

本中的某些token，根本不会在图像中呈现出来，反之亦然。在这种情况下，统一使用masked modeling的做法，虽然确实取得了一定的效果，但是它的上限不会太高；指望它完成真正的跨模态，就更是天方夜谭了。

上述现象，归根结底，这是因为图像和文本的来源不同：图像作为反映客观事物的载体，必须追求真实和详细；而文本作为人类主观意志的表达，则往往追求抽象和简洁。

目前，还没有任何一种方法能够证实两种数据应该被映射到同一个隐空间上；而几乎所有跨模态预训练方法，都不过将两种完全不同的数据强行对齐，得到一些统计意义上的弱规律罢了。

当然，我不是说这些事没有意义。在深度学习，尤其是具有大一统潜力的transformer模块的助力下，这样做确实拓展了人类的知识边界和工具包，值得记为AI发展的一个小里程碑。

但是，我们决不能满足于这种简单暴力的方法，因为它们对本质问题（即不同模态数据如何对齐）的帮助极为有限。

就拿我熟悉的视觉任务来说。BEIT和MAE开启了一波masked image modeling的热潮，然而问题是：在图像上做mask真的对吗，真的能够学到高效的语义吗？这个问题目前还没有得到解答！

换句话说，还没有人能够回答，图像自监督究竟学到了什么，是否学到了超越像素统计量的信息？在这种情况下，如果我们一味地沉浸在transformer的表面繁荣里，沾沾自喜于fine-tuning比linear probing高出的那几个百分点，怕是会忘了前路漫漫，懈怠于思考真正重要的问题吧。

总之，大一统很重要也很迷人，但是还不到火候啊。

最后，我希望以下两件事至少发生一件。

第一，我被狠狠地打脸：这样暴力的预训练方法确实带来了非平凡的突破，走向下一个时代的AI。

第二，大佬/大组们能够稍微冷静一些，向业界传递正确的信号，让没有足够资源烧实验的同学们知道哪些问题重要、哪些问题亟待解决、哪些问题不过是无奈下的选择：只有更理智的大众，才能更好地推动业界发展，不是么？

后台回复关键词【入群】

加入卖萌屋NLP/IR/Rec与求职讨论群

后台回复关键词【顶会】

获取ACL、CIKM等各大顶会论文集！

登录查看更多

相关内容

Data2vec

关注 0

【CVPR2022】基于渐进自蒸馏的鲁棒跨模态表示学习

专知会员服务

20+阅读 · 2022年4月13日

【NeurIPS2021】多模态融合的注意力瓶颈

专知会员服务

64+阅读 · 2021年10月14日

多模态预训练模型简述

专知会员服务

113+阅读 · 2021年4月27日

【WSDM2021】基于演化状态图的时间序列事件预测

专知会员服务

54+阅读 · 2020年12月1日

1750亿参数！GPT-3来了！31位作者，OpenAI发布小样本学习器语言模型

专知会员服务

73+阅读 · 2020年5月30日

AAAI 2022 | 北大 & 阿里达摩院：基于对比学习的预训练语言模型剪枝压缩

PaperWeekly

0+阅读 · 2022年2月14日

自监督和语言监督我全都要？Facebook多模态预训练模型SLIP给你答案！

PaperWeekly

1+阅读 · 2022年1月30日

Meta AI发布图音文大一统模型Data2vec，4天在GitHub揽1.5万星

量子位

0+阅读 · 2022年1月29日

Meta AI 发布 data2vec！统一模态的新里程碑！

夕小瑶的卖萌屋

1+阅读 · 2022年1月22日

如何评价FAIR提出的MaskFeat：一种适用图像和视频分类的自监督学习方法？

极市平台

1+阅读 · 2021年12月21日

多模态融合的大规模网络视频名人标注研究

国家自然科学基金

0+阅读 · 2013年12月31日

集成多模态信息的驾驶者异常状态识别模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉显著性和稀疏表示的图像质量评价

国家自然科学基金

1+阅读 · 2012年12月31日

图像压缩感知与图像加密融合算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

具身心智视域下的中医五行概念隐喻的认知心理语言逻辑研究

国家自然科学基金

1+阅读 · 2012年12月31日

Inference for Cluster Randomized Experiments with Non-ignorable Cluster Sizes

Arxiv

0+阅读 · 2022年4月18日

Novelty Search in Representational Space for Sample Efficient Exploration

Arxiv

0+阅读 · 2022年4月15日

MVFNet: Multi-View Fusion Network for Efficient Video Recognition

Arxiv

13+阅读 · 2021年1月5日

PROP: Pre-training with Representative Words Prediction for Ad-hoc Retrieval

Arxiv

11+阅读 · 2020年10月20日

XLNet: Generalized Autoregressive Pretraining for Language Understanding

Arxiv

14+阅读 · 2019年6月19日

VIP会员