重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py - 专知

会员服务 ·

0

重磅发布：基于 PyTorch 的深度文本匹配工具 MatchZoo-py

2019 年 8 月 26 日 AI科技评论

本文来自公众号“中国科学院网络数据重点实验室”，AI科技评论 获授权转载，如需转载，请联系中国科学院网络数据重点实验室。

MatchZoo 是由中科院计算所网络数据科学与技术重点实验室于 2017 年发布的一个深度文本匹配工具开源项目，可应用于文本检索、自动问答、复述问题、对话系统等多种应用任务场景。目前在 GitHub 平台上已获得将近 2600 Star，719 Fork，在深度文本匹配领域具有较大的影响力。

MatchZoo-py 是基于 PyTorch 框架，对 MatchZoo Keras 版本进行二次开发的新开源项目。借助 PyTorch 灵活性高，可扩展性强的特性，MatchZoo-py 在文本处理上具有更简洁的实现。使用 MatchZoo-py 框架，用户可以更加直观地了解深度文本匹配模型的设计、更加便利地比较不同模型的性能差异、更加快捷地开发新型的深度匹配模型。

MatchZoo-py 提供了基准数据集（WiKiQA、QuoraQP、SNLI 等数据集）进行模型开发与评估，实现了当前最流行的深度文本匹配方法（包括 DRMM，DSSM，CDSSM，ESIM，ARC-I，ARC-II，KNRM，ConvKNRM，BiMPM，MatchLSTM ，Bert 等算法），旨在为信息检索、数据挖掘、自然语言处理、机器学习等领域内的研究与从业人员提供便利。

同时，MatchZoo-py 整合了为 NLP 带来里程碑式改变的预训练模型 Bert，并提供了相应的使用指南。

MatchZoo-py v1.0 具有的新 Features 如下：

基于 PyTorch 框架进行开发，灵活性高，可扩展性强
整合预训练模型 Bert，可作为模型基础层使用，并提供使用指南
优化 Embedding 加载模块，支持 Word2vec，GloVe，fastText 等 Embedding
支持不同粒度（Character，N-gram，Word，Phrase 等）的 Embedding 输入
实现了大部分流行的深度匹配模型
支持动态 Padding，提高模型效率
自动检测 Task 中 Loss 和 Metric 的合法性
支持多线程 DataLoader
模型训练中支持自定义 Early stopping，clipping gradient norm，validation interval 以及自动保存最好模型

我们对比了多个模型，不同模型的性能如下所示，图 1 为不同模型在 WikiQA 训练数据集上的损失曲线，图 2 为不同模型在 WikiQA 测试数据集上的 NDCG@5 性能曲线，可以看到， MatchZoo-Py 可以复现 Keras 版本的性能，并且发现 Bert 取得了最好的性能。

图 1 不同模型在训练集上的的 loss 曲线图

图 2 不同模型在测试集上的 NDCG@5 性能曲线图

作为一个开源项目，欢迎大家给我们提供宝贵的建议与意见，同时也欢迎大家申请加入我们的开发队伍。

项目地址：

https://github.com/NTMC-Community/MatchZoo-py

点击 阅读原文 ，查看：放大的艺术 | 基于深度学习的单图超分辨

登录查看更多

0

相关内容

PyTorch

PyTorch

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

专知会员服务

91+阅读 · 2020年5月8日

最新《深度学习行人重识别》综述论文，24页pdf

最新《深度学习行人重识别》综述论文，24页pdf

专知会员服务

81+阅读 · 2020年5月5日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

AI100

5+阅读 · 2019年8月24日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

深度学习时代的推荐系统

深度学习时代的推荐系统

大数据技术

8+阅读 · 2018年1月6日

每周论文清单：知识图谱，文本匹配，图像翻译，视频对象分割

每周论文清单：知识图谱，文本匹配，图像翻译，视频对象分割

PaperWeekly

8+阅读 · 2017年12月27日

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

AI科技评论

4+阅读 · 2017年12月23日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

Scalable Gromov-Wasserstein Learning for Graph Partitioning and Matching

Arxiv

8+阅读 · 2019年10月9日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Learning a Matching Model with Co-teaching for Multi-turn Response Selection in Retrieval-based Dialogue Systems

Arxiv

6+阅读 · 2019年6月11日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN

Arxiv

11+阅读 · 2018年5月27日

Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots

Arxiv

4+阅读 · 2018年5月7日

Cross-Domain Image Matching with Deep Feature Maps

Arxiv

14+阅读 · 2018年4月6日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Multi-Channel Pyramid Person Matching Network for Person Re-Identification

Arxiv

7+阅读 · 2018年3月7日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

VIP会员

相关主题

中国科学院

中科院计算技术研究所

文本匹配模型

相关VIP内容

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

哈工大最新综述，基于文档的对话系统，30页pdf跟踪最新领域前沿

专知会员服务

91+阅读 · 2020年5月8日

最新《深度学习行人重识别》综述论文，24页pdf

最新《深度学习行人重识别》综述论文，24页pdf

专知会员服务

81+阅读 · 2020年5月5日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

【微软亚洲研究院】CodeBERT:用于编程和自然语言的预训练模型，CodeBERT: A Pre-Trained Model for Programming and Natural Languages

专知会员服务

32+阅读 · 2020年2月21日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

数据挖掘大拿韩家炜：从非结构化文本到知识立方TextCube：自动化构建和多维探索

专知会员服务

101+阅读 · 2019年12月28日

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

【NLP模型的跨语言/跨领域迁移】《Transferring NLP models across languages and domains》

专知会员服务

43+阅读 · 2019年11月25日

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

【NLP| 推荐文章】从统一文本到文本探讨迁移学习的局限性（Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer）

专知会员服务

20+阅读 · 2019年11月24日

热门VIP内容

开通专知VIP会员享更多权益服务

最新，DeepSeek-R1论文登上Nature封面，附83页补充材料

人工智能与未来战争

自动驾驶中的轨迹预测大型基础模型：全面综述

万字长文《对抗雷达系统的电子战综述》

相关资讯

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

腾讯AI开源框架Angel 3.0重磅发布：超50万行代码，支持3种算法，打造全栈机器学习平台

AI100

5+阅读 · 2019年8月24日

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

最强NLP预训练模型库PyTorch-Transformers正式开源！支持6个预训练框架，27个预训练模型

AI前线

12+阅读 · 2019年7月22日

基于PyTorch/TorchText的自然语言处理库

基于PyTorch/TorchText的自然语言处理库

专知

28+阅读 · 2019年4月22日

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

中科院计算所发布MatchZoo 2.0，深度文本匹配工具

专知

11+阅读 · 2019年1月12日

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

pytorch-pretrained-BERT：BERT PyTorch实现，可加载Google BERT预训练模型

AINLP

35+阅读 · 2018年11月6日

深度学习时代的推荐系统

深度学习时代的推荐系统

大数据技术

8+阅读 · 2018年1月6日

每周论文清单：知识图谱，文本匹配，图像翻译，视频对象分割

每周论文清单：知识图谱，文本匹配，图像翻译，视频对象分割

PaperWeekly

8+阅读 · 2017年12月27日

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

中科院计算所范意兴专访：深度文本匹配工具 MatchZoo 背后的个中细节

AI科技评论

4+阅读 · 2017年12月23日

深度文本匹配开源工具（MatchZoo）

深度文本匹配开源工具（MatchZoo）

机器学习研究会

10+阅读 · 2017年12月5日

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

YesOfCourse团队在Kaggle文本匹配竞赛中获得优异成绩

中国科学院网络数据重点实验室

10+阅读 · 2017年6月15日

相关论文

Scalable Gromov-Wasserstein Learning for Graph Partitioning and Matching

Arxiv

8+阅读 · 2019年10月9日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

Learning a Matching Model with Co-teaching for Multi-turn Response Selection in Retrieval-based Dialogue Systems

Arxiv

6+阅读 · 2019年6月11日

Star-Transformer

Star-Transformer

Arxiv

5+阅读 · 2019年2月28日

Question Answering over Freebase via Attentive RNN with Similarity Matrix based CNN

Arxiv

11+阅读 · 2018年5月27日

Learning Matching Models with Weak Supervision for Response Selection in Retrieval-based Chatbots

Arxiv

4+阅读 · 2018年5月7日

Cross-Domain Image Matching with Deep Feature Maps

Arxiv

14+阅读 · 2018年4月6日

Stacked Cross Attention for Image-Text Matching

Arxiv

3+阅读 · 2018年3月21日

Multi-Channel Pyramid Person Matching Network for Person Re-Identification

Arxiv

7+阅读 · 2018年3月7日

MatchZoo: A Toolkit for Deep Text Matching

Arxiv

5+阅读 · 2017年7月23日

大家都在搜

大型语言模型

IJCAI2025教程

久别重逢话双塔

朱克爱德华兹家族

再见，TD-SCDMA！

微信扫码咨询专知VIP会员