如何评价AllenNLP？

Question

如何评价AllenNLP？

官网： http://www.allennlp.org/ Github Repo：https://github.com/allenai/allennl…

关注者

599

被浏览

88,335

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

查看全部 13 个回答

开发AllenNLP的人不是很多，所以不可避免地会出现一些bug，甚至很致命（例如0.8.3版本测试时加载模型，默认的DatasetReader居然是训练集的DatasetReader，0.8.5版本之后已经修改为验证集的DatasetReader），同时基本可以说是没有文档（根本没法看)，只能通过一点点阅读源码了解框架整体运行流程以及各个API的内部逻辑。好在源码的整体风格还不错，读起来不算太难，使用起来也比较方便，一般只需要自己写Model和DatasetReader就可以。就算是不使用AllenNLP框架，自己写PyTorch的时候也可以借鉴一些代码的实现，菜鸡的我还是从中学到了一些东西。

答非所问，本人觉得Al2的一些论文idea还是比较有意思的，读过的有意思的论文列举如下（作者列表里有AI2的就算在内）：

Deep contextualized word representations: ELMO不用说了吧
Bi-Directional Attention Flow For Machine Comprehension：BiDAF，抽取式阅读理解任务SQuAD经典模型，相比之前的Match-LSTM引入双向注意力机制
FlowQA: Grasping Flow in History for Conversational Machine Comprehension：对话阅读理解任务CoQA、QuAC上的模型
A Qualitative Comparison of CoQA, SQuAD 2.0 and QuAC：对这三个数据集进行对比，发现pretraining能提高效果
Multi-hop Reading Comprehension through Question Decomposition and Rescoring：通过问题分解解火锅QA，模型更有可解释性
Is Attention Interpretable?：句子分类任务中探讨attention的作用
Pathologies of Neural Models Make Interpretations Difficult：探讨神经网络模型过稳定问题
Evaluating NLP Models via Contrast Sets：通过人工标注对比集样本，只做微小的改动却改变样本标签，更好地评估模型性能

还有一些较有名的阅读理解数据集，例如TriviaQA、QuAC、DROP、MathQA、BREAK等，以及EMNLP2019 best demo（可解释性系统），都出自AI2。其实从上面列举的工作很明显能够看出，AI2是一家idea非常新奇、不灌水、真正为学术做贡献的机构。

编辑于 2020-07-06 01:25

查看全部 13 个回答