科研博客圈的书剑恩仇

2017 年 9 月 5 日 科学网 于淼

推动科学进步的是学术争论，大家围坐一席以数据与逻辑为工具互相质疑，寻求共识。但事实上这个过程中并不缺乏个人或群体情感的介入，这一方面是现代科研职业化所导致的拿钱吃饭，另一方面则是科研人员自身的主观好恶。这一点在科学家的博客上展示的淋漓尽致，虽然在学术期刊里发评论比较正式，但在预印本、数据共享与可重复性研究的大趋势下，越来越多的科学家选择时效性更高的非同行评议的博客来对科学进展进行评论。

借助这些社交媒体，我们也可以一窥他们对学术观点的爱恨情仇，也许有人不屑于这些主观性比较强的评论，但从学术交流的角度出发，如果我们仅仅通过学术期刊与会议交流学术观点，由于存在审稿与运作周期，很多共识会消耗大量的传播成本来达成，这不仅与信息时代脱节，也会造成资源浪费。

下面我们看些案例感受下国外学术界在博客这一媒介上的观点交锋：

哥伦比亚大学的 Andrew Gelman 的博客可以算得上是个火药桶了，他本身主张贝叶斯学派，而赶巧贝叶斯学派跟频率学派可以算得上科研数据分析里哲学思想差异最大的两派，起码按我的粗浅认识是根本无法调和的，所以即便实用上甚至算法上都差异不大，想对这两种思想和稀泥基本都会被 Gelman 教授无情嘲讽，如果你还打算说贝叶斯不好，基本上会被博文讨伐。当然，也不是所有人都有这个待遇，同舟子的做法类似， Gelman 教授基本也是逮着大鱼去坑。需要提醒的是他可不是舟子那种十几年不做科研的学术圈外人士，其本人是哥伦比亚大学应用统计中心的主任，其团队的研究领域十分广阔，大家可以感受一下：

顺带一提，著名贝叶斯统计软件 stan 就出自这个团队。

I wish people were clearer about what Bayes is/is not and what frequentist inference is/is not. Bayes is the analysis of subjective beliefs but provides no frequency guarantees. Frequentist inference is about making procedures that have frequency guarantees but makes no pretense of representing anyone’s beliefs.

Using inference from the posterior distribution, p(theta|y)

Science is always full of subjective human choices, and it’s always about studying larger questions that have an objective reality.

但在后面的论述中，Gelman 教授就开始开嘲讽技能了，Larry 认为在高维数据处理中贝叶斯方法没意义无法解释，Gelman 教授则反驳说他觉得除了贝叶斯方法别的方法也都是解释不通的，并且他认为 Larry 自己不懂贝叶斯还瞎定义是十分不妥的。不得不说这段论述很没营养，跟小学生吵架差不多。紧接着 Gelman 教授又提到主观确实是贝叶斯方法的一部分但不是全部，那频率学派是不是可以说成“简单随机采样的技术”，科学研究范围在拓展，各种方法也在发展，贝叶斯方法可以研究客观问题。这个说法也比较中肯，接下来 Gelman 教授又开启了挖坟模式，他把 Larry 08年到13年关于贝叶斯方法中随机性看法的转变给列了出来，紧接着又说我也有这个转变过程。但文章最后他又翻了 Larry 对经济学家的旧账，认为他存在个人偏见。

Nick Cox 杜伦大学 Stata 元老级开发者
Larry Wasserman 卡内基·梅隆大学教授当事人
Deborah G. Mayo 宾夕法尼亚大学教授采访 Larry 的人 errorstatistics.com 博主
Kevin Dick 斯坦福毕业创业者 possibleinsight.com 博主
Judea Pearl UCLA 教授 http://causality.cs.ucla.edu/blog/ 博主
Christian Hennig 伦敦大学学院教授
Norm Matloff UC Davis 教授
Brendan K O’Rourke 都柏林理工教授 http://www.brendankorourke.com/ 博主

案例二：两个软件会产生一个结果吗？

首先 Lior 讲在他们那个 RNA 测序定量的圈子里，软件跟软件差异都是很大的，基本你用不同软件想得到一样的结果非常困难（这也说明这个领域的研究共识没有达成）。然后他话锋一转，说自己组里2016开发的一个软件跟最近发表在 Nature Methods 上的软件处理结果却出奇的一致，皮尔逊相关系数三个九，然后又是一通追根溯源。这里岔开说一句，Lior 之所以可以追根溯源，是因为预印本及版本控制系统的流行，最近 ACS 也对化学领域提供了预印本服务，预计不久就会覆盖绝大多数涉及数据分析的实验学科。

从版本上 Lior 发现在他们论文发表后 Rob Patro 的软件也有了一个很大的更新，更新前跟他们组软件差异明显，更新后确几乎一样了，最后他认为 Rob Patro 所发表的文章实际上就是抄了自己组里开发软件的思想，然后加了个矫正。当然 Rob Patro 也很快在 github 上发表了一个回应，大意是他们在文章跟源码中多次引用了 Lior 组的论文并且在有些数据集中这两个软件的结果是不一样的，工作流程也不一样。

但 Lior 教授显然并不满意，他又写了一篇博文指出其回复混淆视听，所谓的不一样是下游分析，而在 RNA 定量上这两个差距还是很小，如果你去看这篇回复会发现 Lior 甚至使用了动画来展示两者区别很小，可谓精心准备。我在读这三篇文章时学到很多的论述方法与追踪验证方法，可以说很多方法现在还没出现在教科书中，但可以感到早晚会形成趋势。

顺带一提， Lior Pachter 教授的博客上还友情链接了 Andrew Gelman 教授的博客。我想说的是在国外是真真切切存在着通过博客的学术交流的，参与学者的水平也是相当强悍，而且不同于国内科研向公众号或博客满足于对论文的解读，这些博客上更多出现的是一种批判式讨论，而且夹杂了相当重的个人情绪，如果你打算阅读也是需要辨伪存真的，这本身对于提高科研思维也有帮助，所以我推荐高年级本科生、研究生跟科研一线的学者都可以去寻找自己感兴趣领域大牛的博客，省的每次找推荐审稿人都搞近亲繁殖，如果你能从这些火药桶博客里获得正面评价，那么恭喜你，科研对你并不是个坑。

其实类似的故事还有很多，你可以从这篇文章里出发用关键词去探索。我在前面的文本分析的文章中曾提到越是高端的论文，发表勘误的比率就越是很高，这说明前沿领域的研究不确定性是很高的，思想碰撞也很激烈。如果把社交媒体上的各类花式吐槽也算进去，你会发现科研领域有很多烧脑的故事，各路参与者也从来都不缺名校光环跟牛文加持，阴谋诡计、解释掩饰、爱恨情仇等可能被小心翼翼地埋藏在数据与图表之中，虽然看懂需要比较高的门槛，但也正是这种门槛屏蔽了围观群众，上演一幕幕精彩绝伦但需要自行判断的书剑恩仇。

转载本文请联系原作者获取授权，同时请注明本文来自于淼科学网博客。
链接地址：http://blog.sciencenet.cn/blog-430956-1074307.html