顶会paper越来越多，我该怎么看？

会员服务 ·

顶会paper越来越多，我该怎么看？

2020 年 11 月 30 日 CVer

点击上方“CVer”，选择加"星标"置顶

重磅干货，第一时间送达

本文转载自：王晋东不在家

https://zhuanlan.zhihu.com/p/315760425

近年来，作为学术前沿研究的风向标的顶会接收的论文越来越多。例如，最近放榜的NeurIPS 2020就接收了高达1900篇论文，刚刚过去的CVPR、ICML、ECCV等也均在接收文章数量上“再创新高”。

这么算下来，一个做机器学习相关研究的人，一年关注5个顶会的话（CCF仅人工智能领域有7个会议，再加上每个子领域的A，更多），也要面对将近10000篇顶会的paper。试问谁能看的过来？

最近的观察：讲故事能力越来越重要

2020年是一个特殊的年份。因为疫情的缘故，绝大多数会议都选择在线上召开。作者们也为大家贴心地准备了每篇paper的video，时长从几分钟到十几分钟不等。看paper看不过来，听talk似乎是一个经济的方案？

最近一段时间，笔者听了几场顶会的talk，很明显的感觉是现在的顶会paper中讲故事的能力越来越重要了。

本来贡献一般，甚至不乏很简单的a+b/a for b模式，落到普通人手里估计也就能中个二流会议，然而讲故事高手却能让他轻松中顶会。故事讲的太离奇，不太容易区分出真正的贡献。硬核的、原创的、真正有用的研究越来越少。

从研究积累和经验上来看，在一个领域深耕多年的大组和牛组无疑比普通人更擅长讲故事，通过故事将自己的贡献娓娓道来。一个好的故事配合不算差的创新点，使得文章被接受的概率大大增加。所以说普通人发文章越来越难啦。适当的包装和讲故事有利于让读者根据自己的思路对文章内容进行理解，这是必须的，但是绝对不是过度包装。

我的建议是，talk可以听，但是绝对不要被talk所迷惑。至少在听talk之前，还是要自己先大概看一下paper。不然你没看paper直接听，我们的讲者的素质越来越高，每个讲者都能让你觉得他做出了前无古人的工作，直接影响你的判断，让你对这个内卷的学术圈更加绝望。

当然，任何问题我们都需要辩证地看待，并不是说所有的talk对应的paper都不好，只是从好的talk里找到好的paper，还需要仔细鉴别。

其实，除非研究的是理论和新架构，否则机器学习和AI相关的方法paper，归根到底没有新方法，都是已有方法的应用。所以一篇paper的贡献就是围绕为什么要用这个方法、以及用这个方法到底解决没解决问题、为什么这个方法能解决问题。

因此，从方法层面，根本区分不出一个工作是长期在一个领域的学者、博士、硕士做出来的，还是刚进实验室、给idea就做的本科生做出来的。因为归根到底大家都在做机器学习的应用。而这个时候，讲故事的能力就体现出来了。

一篇好的工作应该是什么样的？

「没有一篇paper是完美的，想拒它总能找到一万个理由。想接受它也能找到一万个理由。」

那么一篇好的工作应该是什么样的？

个人浅见，一篇好的工作至少要满足以下几个条件之一：

「非常好的想法」，可能并不难，但是不告诉你你就永远想不到。经典例子是ResNet。Skip connection非常简单，但是想到加skip connection却很难。
「非常solid的工程实现和绝佳的性能。」 经典例子是Transformer和BERT。自监督和无监督预训练并不是什么新的idea，但是到了Google这帮厉害的程序员手里就可以利用大规模数据和分布式训练，硬生生搞出前无古人的性能。
「非常充分的理论证明。」 从理论角度分析一个领域的某个问题，直接给未来工作以启示。经典例子是迁移学习领域的著名理论工作Analysis of representations for domain adaptation，后续该领域所有的理论工作都会引这篇文章。
「非常solid的实验」。从实验角度分析领域的若干问题并给出相应的结论。显然在深度学习时代这种文章太重要了。经典例子是迁移学习领域2014年的文章How transferrable are features in deep neural networks。
「提出一个新问题。」 这个很好理解，但在这个paper爆炸的时代可能越来越难以鉴别到底是不是first work了。审稿人不可能看过一个领域内所有方向的paper，这时候鸡贼的投稿人就欺负审稿人没看过然后说自己是一个新问题。审稿这种paper我的原则是狠狠打死，strong reject，然后把前人的工作甩给他。
「已有问题下直接开创一个新的分支。」 这就厉害了，属于另起炉灶的工作。经典例子如MAML、GAN、Flow模型，完全是在开辟一个崭新的(灌水)方向。

如何看海量paper？

这个问题没有标准答案。事实上每个人不可能对所有的“好”paper都达到100%的召回率。我的方式也还是比较老套，就是顶会放榜后人工去筛出自己感兴趣的paper下载下来打上标签（用zotero）留着慢慢看。尽量用一句话总结出一篇paper的贡献。这时候就能很轻松地分辨出一篇paper是不是水文了：

「如果你能轻而易举地用一句话概括它的所有贡献、并且别人能看明白或者你一个月后看到笔记你就能明白，那它多半不是一个好的工作。」

「如果你自己都觉得一句话不太够、需要多做一些笔记，那这篇paper是值得一看的。」

例如，paper A针对x问题提出y方法，其核心是xxx，取得了好结果。

如果一个月后你看了笔记还记得、并且对其y方法印象深刻、认为其确实解决了问题，那是一个好paper；如果你一个月后已经记不得y是个啥、解决了个啥问题、到底有没有解决还是只是性能有提高，那多半不是一个好工作。

当然，这“一句话”就见仁见智了，不同的人有不同的理解。如果实在难以区分，那还有第二招：看它研究的问题和motivation。看这个问题是否很重要，为了解决它，作者为什么要用xx方法，xx方法能够被其他方法所替代吗？你觉得这么用是不是灌水、让你想你能不能想到。如果你也能轻松想到或你觉得这么加就是a+b，那么多半它不是一个好的paper。

可能是一个新奇的看paper角度：看工业界的paper

其实工业界的paper相对来说“好”paper的召回率能有所保证。为啥？因为发paper是学校和研究所的kpi，那当然大家会拼命发呀。但是只会发paper在公司里是不可能混的好的。所以工业界提交的paper里总会有一部分真正能work的paper才能保证这群人能在公司里混的好。

另一方面，深度学习时代最重要就是大数据和计算平台，这两个恰恰是工业界具备的、绝大多数高校和研究所不具备的。工业界因为有实际问题和实际的数据，往往看问题会比高校和学术界更实际也更透彻、更能解决痛点。数据也都是实际应用的大规模数据，更能验证方法的有效性。不过工业界的paper通常都不是很花里胡哨，有点傻大粗。。。

所以这个角度是不是很新奇。。。当然问题没有绝对的，我从来没说高校和研究所的paper都不好，工业界的都好，毕竟高校和学术界是工业界研究的支持力量。我在这里只是给大家提供这个角度供参考。

我们怎么学习？

「从讲故事讲的好的paper里，学习讲故事的能力。」

再强调一下，讲故事和写作能力在顶会里越来越重要了。不是大牛组的同学一定要加强，多读别人的paper学习套路，能加理论就加一下（虽然你也不会用到）、参考别人的用词和套路、画的精美的插图和表格，更好地包装自己。

当然，科研的本质不是做出真正改变世界的成果吗，为什么我们一直在强调讲故事和写作？悲哀啊。

「从硬核的你觉得的好paper里，学习研究问题、分析问题、解决问题的能力。」

这就见仁见智了，得是一个持续学习的过程，你需要自己真正进入一个领域去思考问题。

当然，并不是鼓励大家去灌水，为了毕业也是不得已。这是从写作者的角度讲大家要给予理解。毕竟没有人生来就能做出好的工作，都得慢慢成长。但绝对不要长期灌水，否则就太没有意义了，浪费电浪费GPU污染环境。所有的好工作也是建立在无数的平庸的工作基础之上的。要辩证地看待这个问题。

其实挺精神分裂的，一方面，作为研究者，我们当然想发顶会，那就得画大时间讲好故事; 另一方面，作为论文阅读者，我们确实不太想看故事厌烦过度包装，直切要害最好了。然而又能怎么办呢？这就是从业者的命。

补充一句，顶会还是顶会，真正的好paper永远都会优先投在会议上，只是我们需要去发现它。并不是说因为灌水的多了，顶会就不“顶”了。态度还是要端正的。

最后，大家加油吧！祝每一份努力都不会白费！

下载：CVPR / ECCV 2020开源代码

后台回复：CVPR2020，即可下载CVPR 2020代码开源的论文合集

后台回复：ECCV2020，即可下载ECCV 2020代码开源的论文合集

重磅！CVer-论文写作与投稿交流群成立

扫码添加CVer助手，可申请加入CVer-论文写作与投稿 微信交流群，目前已满2400+人，旨在交流顶会（CVPR/ICCV/ECCV/NIPS/ICML/ICLR/AAAI等）、顶刊（IJCV/TPAMI/TIP等）、SCI、EI、中文核心等写作与投稿事宜。

同时也可申请加入CVer大群和细分方向技术群，细分方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注：研究方向+地点+学校/公司+昵称（如论文写作+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲长按加微信群

▲长按关注CVer公众号

整理不易，请给CVer点赞和在看！

登录查看更多

相关内容

王晋东

关注 18

王晋东，现于中国科学院计算技术研究所攻读博士学位，研究方向为迁移学习、机器学习等。他在国际权威会议ICDM、UbiComp等发表多篇文章。同时，也是知乎等知识共享社区的机器学习达人（知乎用户名：王晋东不在家）。他还在Github上发起建立了多个与机器学习相关的资源仓库，成立了超过120个高校和研究所参与的机器学习群，热心于知识的共享。个人主页：[http://jd92.wang](http://jd92.wang/)

AAAI 2021论文接收列表放出! 1692篇论文都在这儿了！

专知会员服务

73+阅读 · 2021年1月3日

自然语言处理顶会COLING2020最佳论文出炉！

专知会员服务

24+阅读 · 2020年12月12日

自然语言处理顶会EMNLP2020接受论文列表，754篇论文都在这儿了！

专知会员服务

28+阅读 · 2020年10月26日

NLP必读经典文献100篇

专知会员服务

124+阅读 · 2020年9月8日