473个模型试验告诉你文本分类中的最好编码方式 - 专知

会员服务 ·

0

473个模型试验告诉你文本分类中的最好编码方式

2017 年 8 月 17 日 炼数成金订阅号

论文地址：https://arxiv.org/pdf/1708.02657.pdf

本论文实证研究了在文本分类模型中汉语、日语、韩语（CJK）和英语的不同编码方式。该研究讨论了不同层面的编码，包括 UTF-8 bytes、字符级和词汇级。对于所有的编码层面，我们都提供了线性模型、fastText (Joulin et al., 2016) 和卷积网络之间的对比。对于卷积网络，我们使用字符字形（character glyph）图像、one-hot（或 one-of-n）编码和嵌入方法比较了不同的编码机制。总的来说，该实验涉及 473 个模型，并使用了四种语言（汉语、英语、日语和韩语）的 14 个大规模文本分类数据集。该研究所得出来的一些结论：基于 UTF-8 字节层面的 one-hot 编码在卷积网络中始终生成优秀结果；词层面的 N 元线性模型即使不能完美地分词，它也有强大的性能；fastText 使用字符层面的 N 元模型进行编码取得了最好的性能，但当特征太多时容易过拟合。

2. 卷积网络的编码机制

为了进行客观地对比，所有的卷积网络除了最先几层外都共享相同的设计。我们称相同的部分为分类器，前面不同的几层称为编码器。

2.1 字符字形（Character Glyph）

字形（Glyph）指的是以书写为目的的可读字符。CJK 就是由各种拓扑字形组成的语言，它的笔画和部首代表不同的语义，因此字符字形是一种可行的编码解决方案。

2.2 One-hot 编码

在最简单的 One-hot 编码中，每一个实体必须使用维数等于所有可能实体数的向量表达，并且除了该实体在词汇表中的索引为 1 以外，其它元素都为 0。

2.3 嵌入

我们使用术语「嵌入」表达关联每一个实体的固定长度向量。这些向量一般经过随机初始化，并且通过无监督学习或在当前任务联合学习。嵌入模型的优势在于不必要构建 One-hot 向量，因此嵌入模型的内存占用要显著地比 OnehotNet 少。最后，嵌入方法基本上可以应用于任意编码层面。

图 2：不同模型测试误差的箱线图

图 3：Joint binary 数据集的泛化差距（Generalization gap）

图 4：不同模型泛化差距的箱线图

表 12：在 Joint binary 数据集上遍历一百万样本的估计训练时间，第四列时间估计以秒为单位。这些估计只供参考，训练时间还相当依赖于真实的计算环境。

图 5：不同模型遍历 1 百万样本所需要的时间，时间轴为对数尺度。

表 13：GlyphNet 和 OnehotNet 的训练误差

表 14：EmbedNet 的训练误差

文章来源：机器之心

《MATLAB计算机视觉与深度学习实战》详细讲解了多个 MATLAB 计算机视觉与深度学习案例，提供源码及在线支持。几乎涵盖了数字图像处理中几乎所有的基本模块，并延伸到了深度学习的理论及其应用方面。点击下方二维码报名课程

登录查看更多

7

相关内容

文本分类

文本分类（Text Classification）任务是根据给定文档的内容或主题，自动分配预先定义的类别标签。

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

AI100

9+阅读 · 2019年6月5日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

如何匹配两段文本的语义？

如何匹配两段文本的语义？

黑龙江大学自然语言处理实验室

7+阅读 · 2018年7月21日

深度学习模型复现难？看看这篇句子对模型的复现论文

深度学习模型复现难？看看这篇句子对模型的复现论文

数据派THU

4+阅读 · 2018年6月23日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

基于二进制哈希编码快速学习的快速图像检索

基于二进制哈希编码快速学习的快速图像检索

极市平台

12+阅读 · 2018年5月17日

Scikit-learn玩得很熟了？这些功能你都知道吗？

Scikit-learn玩得很熟了？这些功能你都知道吗？

大数据文摘

4+阅读 · 2018年5月13日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

如何用sklearn创建机器学习分类器？这里有一份上手指南

如何用sklearn创建机器学习分类器？这里有一份上手指南

量子位

11+阅读 · 2018年1月17日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Comparative Analysis of Neural QA models on SQuAD

Arxiv

6+阅读 · 2018年6月18日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

AspEm: Embedding Learning by Aspects in Heterogeneous Information Networks

Arxiv

7+阅读 · 2018年3月5日

MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection

Arxiv

4+阅读 · 2018年1月10日

Analysis of Wikipedia-based Corpora for Question Answering

Arxiv

7+阅读 · 2018年1月6日

VIP会员

相关主题

相关VIP内容

[ICML-Google]先宽后窄:对深度薄网络的有效训练

[ICML-Google]先宽后窄:对深度薄网络的有效训练

专知会员服务

36+阅读 · 2020年7月5日

【CVPR2020】跨模态哈希的无监督知识蒸馏

【CVPR2020】跨模态哈希的无监督知识蒸馏

专知会员服务

61+阅读 · 2020年6月25日

【KDD2020-清华大学】图对比编码的图神经网络预训练

【KDD2020-清华大学】图对比编码的图神经网络预训练

专知会员服务

46+阅读 · 2020年6月18日

基于多头注意力胶囊网络的文本分类模型

基于多头注意力胶囊网络的文本分类模型

专知会员服务

78+阅读 · 2020年5月24日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

Transformer文本分类代码

Transformer文本分类代码

专知会员服务

118+阅读 · 2020年2月3日

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

【MIT深度学习课程】深度序列建模，Deep Sequence Modeling

专知会员服务

78+阅读 · 2020年2月3日

NLP基础任务:文本分类近年发展汇总,68页超详细解析

NLP基础任务:文本分类近年发展汇总,68页超详细解析

专知会员服务

58+阅读 · 2020年1月3日

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

【Google论文】ALBERT:自我监督学习语言表达的精简BERT

专知会员服务

24+阅读 · 2019年11月4日

深度神经网络模型压缩与加速综述

深度神经网络模型压缩与加速综述

专知会员服务

130+阅读 · 2019年10月12日

热门VIP内容

开通专知VIP会员享更多权益服务

《俄乌战争背景下俄罗斯的战略性海军分析（2022-2025年）》最新100页报告

【斯坦福博士论文】数据、决策与依赖：构建可信人工智能的挑战

人工智能时代背景下的未来海战

接触战中的无人机优势：美军旅级部队面临的小型无人机系统挑战与调整

相关资讯

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

五年12篇顶会论文综述！一文读懂深度学习文本分类方法

AI100

9+阅读 · 2019年6月5日

利用神经网络进行序列到序列转换的学习

利用神经网络进行序列到序列转换的学习

AI研习社

12+阅读 · 2019年4月26日

如何匹配两段文本的语义？

如何匹配两段文本的语义？

黑龙江大学自然语言处理实验室

7+阅读 · 2018年7月21日

深度学习模型复现难？看看这篇句子对模型的复现论文

深度学习模型复现难？看看这篇句子对模型的复现论文

数据派THU

4+阅读 · 2018年6月23日

深度学习文本分类方法综述（代码）

深度学习文本分类方法综述（代码）

中国人工智能学会

28+阅读 · 2018年6月16日

基于二进制哈希编码快速学习的快速图像检索

基于二进制哈希编码快速学习的快速图像检索

极市平台

12+阅读 · 2018年5月17日

Scikit-learn玩得很熟了？这些功能你都知道吗？

Scikit-learn玩得很熟了？这些功能你都知道吗？

大数据文摘

4+阅读 · 2018年5月13日

机器学习自动文本分类

机器学习自动文本分类

AI前线

23+阅读 · 2018年2月4日

如何用sklearn创建机器学习分类器？这里有一份上手指南

如何用sklearn创建机器学习分类器？这里有一份上手指南

量子位

11+阅读 · 2018年1月17日

深度学习在文本分类中的应用

深度学习在文本分类中的应用

AI研习社

13+阅读 · 2018年1月7日

相关论文

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Improving the Transformer Translation Model with Document-Level Context

Arxiv

4+阅读 · 2018年10月8日

Direct Output Connection for a High-Rank Language Model

Arxiv

5+阅读 · 2018年8月31日

CoQA: A Conversational Question Answering Challenge

CoQA: A Conversational Question Answering Challenge

Arxiv

7+阅读 · 2018年8月21日

Comparative Analysis of Neural QA models on SQuAD

Arxiv

6+阅读 · 2018年6月18日

Scaling Neural Machine Translation

Arxiv

3+阅读 · 2018年6月1日

Universal Language Model Fine-tuning for Text Classification

Arxiv

3+阅读 · 2018年5月17日

AspEm: Embedding Learning by Aspects in Heterogeneous Information Networks

Arxiv

7+阅读 · 2018年3月5日

MilkQA: a Dataset of Consumer Questions for the Task of Answer Selection

Arxiv

4+阅读 · 2018年1月10日

Analysis of Wikipedia-based Corpora for Question Answering

Arxiv

7+阅读 · 2018年1月6日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员