早发arXiv可多获得65%的引用，但……

会员服务 ·

早发arXiv可多获得65%的引用，但……

2018 年 5 月 16 日 量子位 炒鸡关注前沿科技

原作 Sergey Feldman
Root 编译自 Semanticscholar
量子位出品 | 公众号 QbitAI

现在都流行投顶会或期刊之前，先把文章放arXiv上了。

对研究人员来说，这么做主要有两个好处。一方面尽早占坑，另一方面可以绕过漫长的同行评议时间，加速圈内人交流工作进展。

但是今天有个圈内的人，Sergey Feldman，认为这样不好。

△ Sergey Feldman，大数据和机器学习顾问

Feldman发了一篇文章The Association Between Early ArXiv Posting and Citations在arXiv，在文章里他用模型论证了，论文如果在会议接收之前发，会比接受后发多获得65%的引用次数。

他观察到，在arXiv上早发这个现象会促使大家急于立Flag，进而把文章的质量放在第二位。

另外，当作者的h指数很高的话（42~49），作者本身影响力会进一步助推文章的引用次数。这样大家只是被名人效应吸引才关注这篇文章所做的工作，而不是因为文章质量本身。

那学术圈里的马太效应要怎么破？

Feldman建议，以后arXiv文章提交时设置一个匿名时限。这样可以让学者们只以工作的质量论英雄。

简单介绍一下Feldman的统计条件和评估标准。

Feldman研究的论文对象得符合两个条件：

1）最后被会议或期刊接收的论文；

2）有投放在arXiv上的，接收前接收后都行。

另外，会议必须要是重量级的，只考虑被AAAI、ACL、CVPR、ECCV、EMNLP、FOCS、HLTNAACL、ICCV、ICML、ICRA、IJCAI、INFOCOM、KDD、NIPS、SODA、WWW接收的论文。

还有论文发表时间是限定在2007年到2016年之间，引用次数只考虑会议中稿当年的数据。

符合这些条件的论文，一共有4392篇。

△ 16个顶会分别符合统计标准的论文数

单一的评价尺度可能会有失偏颇。Feldman特定制定了两个不同的评估标准。

一个是看这4千多篇论文在中稿当年的总引用次数。另外一个是排除了作者在以后工作的自引用情况，而且引用的重要程度要很高，在在同一篇文章里，该篇被统计的文章被引用次数要达到3次及以上，才算数。

Feldman建模分析后发现，按第一个标准，接收前发比接收后发的引用次数要多65%。按第二个标准，早发比晚发的引用次数要多75%。

这个数字可以说是相当震惊了。

分析完之后，Feldman解释了一下他做这个研究的目的。

他主要是想看，早发晚发对引用量的影响，也一带研究上作者知名度、文章被接受的会议类型、提前多早发这些变量对引用次数的影响。

他也坦承，这次统计也还有可以改善的部分。比如应该补充变量，像是文章作者所属的研究机构或学校，以及文章质量本身。

最后，为了学术圈更纯粹一些，他建议arXiv开设作者匿名时限就像ICLR 2018的OpenReview平台那样。

想详细地了解统计的模型，可前往：
https://arxiv.org/abs/1805.05238

以及，附上原文地址：
https://blog.semanticscholar.org/the-association-between-early-arxiv-posting-and-citations-72034f0914b2

— 完 —

加入社群

量子位AI社群17群开始招募啦，欢迎对AI感兴趣的同学，加小助手微信qbitbot7入群；

此外，量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募，面向正在从事相关领域的工程师及研究人员。

进群请加小助手微信号qbitbot7，并务必备注相应群的关键词~通过审核后我们将邀请进群。（专业群审核较严，敬请谅解）

诚挚招聘

量子位正在招募编辑/记者，工作地点在北京中关村。期待有才气、有热情的同学加入我们！相关细节，请在量子位公众号(QbitAI)对话界面，回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

登录查看更多

相关内容

arXiv

关注 1121

arXiv（X依希腊文的χ发音，读音如英语的archive）是一个收集物理学、数学、计算机科学与生物学的论文预印本的网站，始于1991年8月14日。截至2008年10月，arXiv.org已收集超过50万篇预印本；至2014年底，藏量达到1百万篇。在2014年时，约以每月8000篇的速度增加。

【斯坦福大学博士论文】统计模型的代数与机器表示，224页pdf

专知会员服务

32+阅读 · 2020年6月18日

如何写论文？这份《科研论文撰写策略》看下

专知会员服务

142+阅读 · 2020年6月15日

【综述】金融领域中的深度学习，附52页论文下载

专知会员服务

161+阅读 · 2020年2月27日

2020图机器学习GNN的四大研究趋势，21篇论文下载

专知会员服务

135+阅读 · 2020年2月10日

2019必读的十大深度强化学习论文

专知会员服务

57+阅读 · 2020年1月16日

AAAI2020接受论文列表，1591篇论文目录全集

专知会员服务

98+阅读 · 2020年1月12日

【经典重顾】如何学会读论文？三轮阅读法，滑铁卢大学S. Keshav

专知会员服务

81+阅读 · 2019年12月28日

清华大学张敏老师，个性化推荐的基础与趋势，145页ppt

专知会员服务

85+阅读 · 2019年11月27日

深度学习自然语言处理综述，266篇参考文献

专知会员服务

225+阅读 · 2019年10月12日

【文献综述】图像分割综述，224篇参考文献，附58页PDF

专知会员服务

115+阅读 · 2019年6月16日

CIKM投稿数量1700篇，图神经网络成热门方向，最佳论文纷纷进行图研究

AI科技评论

9+阅读 · 2019年11月6日

ICML 2019收录774篇论文：谷歌153篇，清华北大26篇

量子位

5+阅读 · 2019年5月12日

AAAI 2019 四个杰出论文奖论文揭晓

算法与数学之美

5+阅读 · 2019年5月11日

投稿近2000，NAACL 2019接收率仅为22.6%|附录取论文名单

AI100

14+阅读 · 2019年3月2日

学界 | 2018 年度 ML、NLP 会议论文大盘点：周明、张潼、孙茂松数据亮眼

中国人工智能学会

3+阅读 · 2019年1月11日

不只有BERT！盘点2018年NLP令人激动的10大想法

黑龙江大学自然语言处理实验室

4+阅读 · 2018年12月24日

CoNLL 2018 | 最佳论文揭晓：词嵌入获得的信息远比我们想象中的要多得多

黑龙江大学自然语言处理实验室

3+阅读 · 2018年11月2日

阅读深度学习论文的新姿势

计算机视觉life

16+阅读 · 2018年7月22日

刷顶会必备 վ’ᴗ’ ի 2018年人工智能顶会月历

量子位

4+阅读 · 2018年1月30日

动态 | Facebook 开始新一轮实习生招募计划，本科学历、了解Python、熟悉深度学习框架……

AI科技评论

3+阅读 · 2017年12月5日

MetaFuse: A Pre-trained Fusion Model for Human Pose Estimation

Arxiv

6+阅读 · 2020年3月30日

Object Detection in Videos by High Quality Object Linking

Arxiv

4+阅读 · 2019年4月8日

Deep High-Resolution Representation Learning for Human Pose Estimation

Arxiv

5+阅读 · 2019年2月25日

Improving Image Captioning by Leveraging Knowledge Graphs

Arxiv

8+阅读 · 2019年1月25日

Towards Understanding Acceleration Tradeoff between Momentum and Asynchrony in Nonconvex Stochastic Optimization

Arxiv

3+阅读 · 2018年10月1日

Implicit Maximum Likelihood Estimation

Arxiv

7+阅读 · 2018年9月24日

Video Summarisation by Classification with Deep Reinforcement Learning

Arxiv

4+阅读 · 2018年7月9日

Unsupervised Meta-Learning for Reinforcement Learning

Arxiv

8+阅读 · 2018年6月12日

A Stochastic Decoder for Neural Machine Translation

Arxiv

5+阅读 · 2018年5月28日

Coarse-to-fine Seam Estimation for Image Stitching

Arxiv

4+阅读 · 2018年5月24日

VIP会员