本科生审稿学界顶级会议论文引争议：论文爆炸式增长，不如让AI来审？

2018 年 5 月 28 日 科研圈

图片来源 Times Higher Education

作者维尼

来源 DeepTech深科技

前不久，一名刚刚毕业的本科生成为机器学习领域的顶级会议——神经信息处理系统大会（Conference and Workshop on Neural Information Processing Systems，NIPS ) 审稿人的消息在业内引发争议。NIPS 大会在人工智能领域，尤其是机器学习方向具有极高的影响力，人们确实有理由质疑这位学生能否胜任这一严峻的任务。实际上，大会此举也实属无奈。毕竟，每年各个学术会议和期刊都会收到几千篇论文，这些数目庞大的论文的评审工作已然成为难题。因此，NIPS 才会通过招募志愿者等方式缓解紧张的人力问题。

然而，这种做法也招致了不少吐槽。早在 2016 年末，现微软亚洲研究院首席研究员刘铁岩先生就吐槽过 NIPS 广泛选取审稿人的做法。随后，南京大学教授周志华也评论称这样的方法难以合理地推动论文评审讨论。

刘铁岩先生新浪微博截图

周志华教授新浪微博截图

不仅评审员不够专业会带来问题，即使是专业的评委，其评审结果也不可避免地会受到主观因素的影响。

2014 年 NIPS 大会曾进行过一个有趣的实验 —— NIPS Experiment。该实验的目的是检验论文评审过程中的随机性。实验中，评审委员会被划分成了两个独立的部分，全部论文中的 10%（166 份）被两边同时评审。两组的论文接收率限制均为 22.5%，即 37 或 38 篇。

实验的结果是令人惊讶的，在这 166 份文件中，两个委员会在 25.9%（42 份）论文的评审意见上相左。而参照各组总共要接收的论文数，对于哪些论文应该被接收，两个委员会评审意见相同的论文数目比意见不同的还少。

在顶级会议上发表论文对于每个研究人员的学术生涯来说都是至关重要的。同时，顶级会议所接收的论文也将对该领域发展产生巨大的影响。因此，确保论文评审公正合理的重要性不言而喻。能否借助机器的力量解决这一问题开始引起人们的关注。

能够审论文的 AI

在此之前，研究者们已经在 AES（automatic essay scoring 自动散文评分）上进行了不少尝试。最早的方式利用精心挑选的特征，通过机器学习的方式得到最终的分数。这些传统方法的效果已经和人类的评审结果接近，但它们都需要大量的特征选择和构建工作，这就需要大量的专业知识。最近的研究则转向了深度神经网络，让系统从繁重的特征选择工作中解脱出来。

然而，学术论文的评审工作与散文不同，它们不仅更长，而且包含更加密集的信息。同时，它们的质量受到很多因素的影响，而不仅仅是写作水平本身。

今年三月，北京大学计算语言学实验室和深度学习实验室提出了新的模型来解决自动学术论文评测（Automatic Academic Paper Rating, AAPR）问题。该模型可以自动进行论文评估，决定哪些论文应该被会议接收。

（论文地址：https://arxiv.org/abs/1805.03977）

该模型的核心是模块化基于层级结构的卷积神经网络，同时引入了注意力机制。卷积神经网络可以自动地提取局部特征。基于注意力机制的迟化层则可以自动确定词语、句子以及模块之间的权重关系。层级结构则逐层构建表征论文的向量。我们知道，学术论文中存在一些固定化的模块，比如“标题”、“作者”、“摘要”和主体部分等。每个模块都存在一个由词语层级到句子层级的层级结构，整个文本也存在一个由模块层级到论文层级的层级结构。因此模型也依据此建立起层级结构，构建特征向量。

ACNN结果图卷积神经网络可以提取局部特征，基于注意力机制的迟化层则可以自动衡量各部分的重要性，生成权重

对于一篇给定的论文，模型首先将它按照模块划分。对于各个模型里每一个句子中出现的词语，通过一个编码矩阵转化为一个稠密向量。在每一个模块中，首先在词语层面利用 ACNN 得到各个句子的特征向量，接下来再在句子层级使用这一方法，得到模块的特征向量。

值得注意的是，论文中“标题”模块往往只有一句话，因此只需要通过一层提取进即可获得该模块的特征向量。而对于作者模块，由于各个作者是相互独立的，因此直接使用加权平均值的方法得到该模块的特征向量。

最后，这些模块的特征向量被集中在一起，通过基于注意力机制的池化层处理，得到最终论文的特征向量。该特征向量被输入到 softmax 层，输出该论文被接收的概率。

目前并没有可以直接应用于这一问题的数据集，因此研究人员建立了 Arxiv Academic Paper Dataset。他们从网上收集了人工智能领域共计 19218 篇学术论文，数据集中包含了这些论文的 LaTex 源码和该论文是否被会议接收的信息。该数据集已经被分为了训练集、测试集和验证集。

Arxiv Academic Paper Dataset 详情

研究人员将论文中提出的模型（MHCNN）的结果与随机模型，一些机器学习模型和深度神经网络模型进行对比，其结果均优于以上模型。

实验结果 MHCNN 预测结果均优于以上模型

在与 MHCNN 对比的模型中，准确率最高为 SVM（支持向量机），此外，MHCNN 的准确率高出传统 CNN（卷积神经网络）模型 6.4%，说明 MHCNN 可以更好地对论文进行编码。

为了探究模型中各部分结构对结果的影响，研究人员分别在模型中移除了模块化层级结构和注意力机制。

分别移除模块化层级结构（w/o Module）和注意力机制（w/o Attention）的实验结果

实验结果表明，对论文划分模块后进行分析对模型的改进效果显著。

为了进一步探究论文中各个模块对一篇论文是否被接收的影响，研究人员又依次去除了论文中的各个模块，再次进行实验。

各模块对论文是否被接收的影响实验结果

由实验结果可见，“作者”对论文被接收与否影响最大。这很容易理解，一位著名学者的论文介绍地更可能是是一个好的工作。此外对结果影响最大的分别是“结论”和“摘要”。它们是一篇论文的精华所在，直接决定整篇论文的质量。而“方法”这一部分的影响则相对较小，这可能是因为各个论文的“方法”模块差异较大，因此这部分对结果影响的方差也较大。

不过根据实验结果，目前该模型的准确率仅达到 67.6%，距离真正可以使用该自动评价系统来进行论文评审还十分遥远。

参考资料：

http://blog.mrtz.org/2014/12/15/the-nips-experiment.html

本文转载自公众号“DeepTech深科技”（ID:mit-tr）

阅读更多

▽ 故事

· 这位15岁拿下物理硕士学位的天才，能够用图像理解数字

· 专治各种学术不端的“康复中心”：犯过错的科学家还能被原谅吗？

· 实验做不下去了？你需要好好睡一觉，“培养”创造力

· 艾滋病如何通过性行为传播？人类首次观察到HIV入侵免疫细胞全过程

▽ 论文推荐

· 诺奖得主绘笔下，神经元的秘密花园