ACL 禁止投稿论文提交 arXiv，双盲评审真的有效吗？

2018 年 5 月 30 日 新智元

新智元报道

来源：综合cacm.acm.org等

编译：肖琴、小潘

【新智元导读】近日，ACL（计算语言学协会）更新了其会议论文的投稿、评审和引用政策。其中最受争议的一项要求是，为了双盲评审的有效性，禁止投稿论文在截止日期前的1个月时间内在 arXiv 等平台公开预印本。匿名评审的有效性如何，应该怎样保证这种政策的公平性，值得重新思考。

近日，ACL（计算语言学协会）更新了其会议论文的投稿、评审和引用政策。其中最受争议的一项要求是，为了双盲评审的有效性，禁止投稿论文在截止日期前的1个月时间里在 arXiv 等平台公开预印本，直到论文评审结果公布。这些新要求引起一些质疑双盲评审有效性的声音，不过，多数研究人员表示支持新政。斯坦福大学 NLP Group的主任、2015 年曾任 ACL 主席的 Christopher Manning 也针对ACL的新政做了详细的解释。

ACL会议的提交、评审和引用政策：

为ACL会议（ACL、NAACL、EACL）和TACL期刊采用以下政策，以维护双盲评审，同时不牺牲预印出版的积极效果。这些政策实际上适用于所有的ACL会议，从2018年1月1日的提交截止日期开始。我们推荐与ACL会议关联的其他会议和研讨会也采用相同的政策，除非这与他们本来的政策相冲突。

ACL会议和TACL要求提交论文匿名化。如果作者在提交截止日期前1个月发布或更新一个匿名的预印版本，直到通知或撤回的这段时间内，提交者将不会被认为是匿名的。如果没有正确的匿名化，提交将被拒绝。

匿名期的匿名预印本是允许的。
在匿名期之前，非匿名的预印本是允许的，尽管我们鼓励作者们等到匿名期之后再发布。
如果有一个非匿名的预印版本存在，作者必须在提交时声明其存在，但不应引用它，并被要求在匿名期间不要进一步公布——提交的论文应尽可能匿名。

尽管许多学术会议都采用匿名评审的方式，匿名评审仍一直受到怀疑。诸如在评审结果出炉之前大范围暴露论文作者，大公司、名校的论文被接受的比例之高似乎不合常理等。我们究竟需要怎样的匿名评审，匿名评审的有效性到底如何，ACL通讯最近发表的一篇文章，对匿名评审进行了实验调查和探讨。

会议论文评审中的偏见无处不在

同行评审是学术出版过程的基石，但也可能受到执行评审的人的影响。评审人潜意识里的偏见会影响客观评价研究工作的能力，这是有实验证据支持的。ACL通讯最近发表的一篇文章发现，在一个包含两个不交叉的程序委员会的受控实验（网络搜索与数据挖掘国际会议，WSDM 17）中，知道作者信息的评审人推荐接受有名作者投稿的可能性比普通作者高1.76倍，推荐接受顶尖机构论文的可能性比普通机构高1.67倍。

此外，另一项对三年的Evolution of Languages会议（2012年，2014年和2016年）的研究发现，当审稿人知道作者身份时，以男性为第一作者的论文评价得分高19％，而以女性为第一作者的论文得分低4％。而在医学领域，美国的评审人更倾向于推荐接受来自美国机构的论文。

而且，无论评审人自己的种族和性别是什么，这些偏见都会影响他们。幸运的是，双盲评审可以减轻这些影响，从而减少偏见。这使得双盲评审制度成为论文评价系统中具有建设性的一部分，使得论文评审结果更加忠于研究工作的质量。

研究者对2016年举办的三次软件工程和编程语言会议进行调查，分别是 IEEE/ACM 国际自动化软件工程会议（ASE），面向对象编程、系统、语言和应用的ACM国际会议（OOPSLA），以及ACM SIGPLAN编程语言设计和实施会议（PLDI）。他们收集了关于匿名化有效性的数据，用于评估审稿人成功对论文作者“去匿名化”的程度。

他们发现，匿名化虽然不完美，但相当有效：70%-86%的评审人在提交评审结果时没有对论文作者进行猜测，74%-90%没有猜测正确。那些认为自己是论文主题的专家的评审人更有可能试图猜测作者的身份，但不太可能猜对。

总的来说，研究者的结论是强烈支持继续使用双盲评审制度，为此付出的额外努力是非常值得的。

匿名化的有效性

匿名化效果

在这三次会议中，有70%到86%的评论是在没有猜测的情况下提交的，这表明审查人通常不知道或者不关心大部分论文的作者是谁。图1总结了每个会议处理的审稿人、论文和评审的数量，以及对作者身份进行猜测的比例。

图1

当评审者进行猜测的时候，他们很可能会猜对。其中，ASE 的猜测正确率是72%，OOPSLA是 85%，PLDI是74%。然而，大多数论文没有一个评审人猜对哪怕一个作者，而且大多数评审意见包含不正确的猜测(ASE 90%, OOPSLA 74%, PLDI 81%)。

专家们更有可能猜对吗？

图2

上图中X表示专家，Y表示知识渊博的人，Z是知情的局外人。图2总结了猜测的发生率和猜测正确性。对于每一个会议，从统计上看，X审稿人比Y和Z审稿人更容易进行猜测。但是，猜测正确性的差异并不显著。我们的结论是，那些认为自己是专家的审稿人更有可能对作者的身份做出猜测，但他们不太可能猜对。

论文的匿名化效果总是很差么？

去匿名化的一个可能的原因是匿名化的效果很差。匿名化效果差的论文可能会招致更多的审稿人进行猜测，也有更高的正确猜测率。

图3

图3显示了试图猜测作者的审阅人员的数量。最大比例（26%-30%）出现在只有一个评论者试图猜测论文的作者的情况下。具有更多的猜测的论文所占的比例更少。条形阴影部分表示作者身份猜测是正确的，有更多猜测的论文有更低的错误猜测率。通过对数据的分析可以得知，改进相对较少的论文的匿名化可能会显著减少猜测的数量。这三个会议最近才开始使用双盲评审程序，由于作者获得了更多的匿名提交的经验，这进一步增加了双盲的有效性，所以匿名化的出现可能会减少。

被猜测的作者的论文更有可能被接受吗？

我们调查了论文接受与否与评审者的猜测正确与否的相关性。

图4

图4显示了每个会议的接受率与没有猜测，至少有一个正确的猜测，以及所有错误的猜测的数据关系。我们在这三次会议上观察到不同的行为：在统计上，不管审稿人的行为是什么，在统计上的接收比率是相同的。

审稿人如何去匿名化？

OOPSLA和PLDI的审稿人被问及引用的使用是否会揭示作者。通过对结构进行分析，表明一些去匿名化可能是不可避免的。一些评审人员在搜索相关工作时发现了GitHub库或项目网站来给他们的最终的评论加以暗示。一些提交的材料代表了对作者先前工作的清晰扩展或内容的熟悉。然而，这也为改善匿名化带来了机会。然而，在程序委员会的会议上，程序委员会主席多次听到他们的成员说，他肯定另一个程序委员会成员是论文作者，但他错了。当审稿人们认为他们通过间接的不致盲的方式认识作者时，他们可能过于自信，有时甚至是错误的。

程序委员会主席的观点

在完成这一过程后，所有三个会议的程序委员会主席都反映了双盲评审的成功和挑战。所有的程序委员会主席都强烈支持在未来继续使用双盲评审。所有人都认为双盲评审减轻了潜意识中存在的偏见的影响，这正是使用双盲评审的主要目标。一些程序委员会的成员们也意识到了这一点，这表明他们更有信心去相信，他们的评论和决定存在更少的偏见。一位程序委员会成员说，双盲评审是一种解放，因为在评估过程中不用担心自己认识的人对自身职业生涯产生影响。

所有的程序委员会主席支持他们对披露作者时间点的决定：也许对于那些被接收的论文而言，应该发生在审查提交之后，程序委员会的会议之前。PLDI程序委员会主席大力提倡完全双盲，也就是说被拒绝的论文可以匿名地重新提交给其他相同审稿人的双盲区，从而解决去匿名化的起因。ASE程序委员会主席观察到，在一些案例中，揭示作者的身份有助于更好地理解论文的贡献和价值。PLDI 程序委员会主席被认为绝对有必要在评估论文时根据要求透露作者的身份。

总的来说，没有任何一个程序委员会主席感觉到由双盲评审带来额外巨大的行政负担。 ASE程序委员会主席招募了两个评审过程主席前来协助，所有人都认为这种额外的投入是合理的。

Christopher Manning：ACL新政是加速科学进步和防止偏见的折衷方案

斯坦福大学 NLP 小组（Stanford NLP group）主任、2015 年曾任 ACL 主席的 Christopher Manning 也发言针对ACL的新政做了详细的解释，他认为：

通过快速传播研究结果来加速科学进步是一件好事。双盲评审从防止对已经享有特权的人的偏见这个角度来看也是一件好事。ACL 新的投稿、评审、引用政策是两者之间的一种折衷方案。

作为一种折衷，它要求某些非匿名的论文延迟传播，这只会改善而非试图破坏双盲评审的完整性。

保持作者的匿名化从来都不是绝对的：人们会谈论他们的工作或者把它发给同事。也就是说，ACL的政策绝不是试图限制你与同事分享手稿。

事实上，这项政策倾向于支持加速科学进步，因为它允许对预印本有很高的使用价值：比如在下一次会议的截止期限的很久之前写完论文，或者从同事那里得到关于早期想法的反馈。

ACL的政策依赖于两个人类自身的缺点：拖延和健忘。每个人都可以在截止日期35天前完成论文，但很少有人能完成。一些好的预印本或以前被拒绝的论文将会广泛使用，但人们不太可能记住作者。

高概率的匿名性很大程度上保留了双盲评审的好处。