如何评价AllenNLP?
关注者
599被浏览
88,335登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
开发AllenNLP的人不是很多,所以不可避免地会出现一些bug,甚至很致命(例如0.8.3版本测试时加载模型,默认的DatasetReader居然是训练集的DatasetReader,0.8.5版本之后已经修改为验证集的DatasetReader),同时基本可以说是没有文档(根本没法看),只能通过一点点阅读源码了解框架整体运行流程以及各个API的内部逻辑。好在源码的整体风格还不错,读起来不算太难,使用起来也比较方便,一般只需要自己写Model和DatasetReader就可以。就算是不使用AllenNLP框架,自己写PyTorch的时候也可以借鉴一些代码的实现,菜鸡的我还是从中学到了一些东西。
答非所问,本人觉得Al2的一些论文idea还是比较有意思的,读过的有意思的论文列举如下(作者列表里有AI2的就算在内):
- Deep contextualized word representations: ELMO不用说了吧
- Bi-Directional Attention Flow For Machine Comprehension:BiDAF,抽取式阅读理解任务SQuAD经典模型,相比之前的Match-LSTM引入双向注意力机制
- FlowQA: Grasping Flow in History for Conversational Machine Comprehension:对话阅读理解任务CoQA、QuAC上的模型
- A Qualitative Comparison of CoQA, SQuAD 2.0 and QuAC:对这三个数据集进行对比,发现pretraining能提高效果
- Multi-hop Reading Comprehension through Question Decomposition and Rescoring:通过问题分解解火锅QA,模型更有可解释性
- Is Attention Interpretable?:句子分类任务中探讨attention的作用
- Pathologies of Neural Models Make Interpretations Difficult:探讨神经网络模型过稳定问题
- Evaluating NLP Models via Contrast Sets:通过人工标注对比集样本,只做微小的改动却改变样本标签,更好地评估模型性能
还有一些较有名的阅读理解数据集,例如TriviaQA、QuAC、DROP、MathQA、BREAK等,以及EMNLP2019 best demo(可解释性系统),都出自AI2。其实从上面列举的工作很明显能够看出,AI2是一家idea非常新奇、不灌水、真正为学术做贡献的机构。