如何评价AllenNLP?

官网: http://www.allennlp.org/ Github Repo:https://github.com/allenai/allennl…
关注者
599
被浏览
88,335
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

开发AllenNLP的人不是很多,所以不可避免地会出现一些bug,甚至很致命(例如0.8.3版本测试时加载模型,默认的DatasetReader居然是训练集的DatasetReader,0.8.5版本之后已经修改为验证集的DatasetReader),同时基本可以说是没有文档(根本没法看),只能通过一点点阅读源码了解框架整体运行流程以及各个API的内部逻辑。好在源码的整体风格还不错,读起来不算太难,使用起来也比较方便,一般只需要自己写Model和DatasetReader就可以。就算是不使用AllenNLP框架,自己写PyTorch的时候也可以借鉴一些代码的实现,菜鸡的我还是从中学到了一些东西。

答非所问,本人觉得Al2的一些论文idea还是比较有意思的,读过的有意思的论文列举如下(作者列表里有AI2的就算在内):

  1. Deep contextualized word representations: ELMO不用说了吧
  2. Bi-Directional Attention Flow For Machine Comprehension:BiDAF,抽取式阅读理解任务SQuAD经典模型,相比之前的Match-LSTM引入双向注意力机制
  3. FlowQA: Grasping Flow in History for Conversational Machine Comprehension:对话阅读理解任务CoQA、QuAC上的模型
  4. A Qualitative Comparison of CoQA, SQuAD 2.0 and QuAC:对这三个数据集进行对比,发现pretraining能提高效果
  5. Multi-hop Reading Comprehension through Question Decomposition and Rescoring:通过问题分解解火锅QA,模型更有可解释性
  6. Is Attention Interpretable?:句子分类任务中探讨attention的作用
  7. Pathologies of Neural Models Make Interpretations Difficult:探讨神经网络模型过稳定问题
  8. Evaluating NLP Models via Contrast Sets:通过人工标注对比集样本,只做微小的改动却改变样本标签,更好地评估模型性能

还有一些较有名的阅读理解数据集,例如TriviaQA、QuAC、DROP、MathQA、BREAK等,以及EMNLP2019 best demo(可解释性系统),都出自AI2。其实从上面列举的工作很明显能够看出,AI2是一家idea非常新奇、不灌水、真正为学术做贡献的机构。