【PyTorch实战】手把手教你用torchtext处理文本数据

2018 年 6 月 14 日 专知

【导读】我们一直在关心深度学习模型的具体实现，实际上，无论是什么实验，数据的处理总是占大头的。如何将一个纯文本数据(比如一个 txt 文本)，变成一个模型可接受的数据（比如一个 embedding 序列）呢？

如果你是 pytorch 的用户，你可能已经非常熟悉 torchvision 了，因为它已经比较稳定，而且官方也为它出了教程。torchtext 跟 torchvision 一样，是为了处理特定的数据和数据集而存在的。正如 NLP和 CV的热度一样， torchtext的热度也较 torchvision 少了许多，至今还在积极开发中，甚至在使用过程中你可能会遇见一些 bug。但是， torchtext 的可用性是肯定的，它提供了一整套文本数据处理流程。

在本文中，我们将使用torchtext，来处理文本数据。其中，数据集采用kaggle的《有毒评论》数据集（https://www.kaggle.com/c/jigsaw-toxic-comment-classification-challenge）。

该数据集格式如下：

存储在一个 csv文件中。

一、预处理CSV文件

import pandas aspd
importnumpy as np
VAL_RATIO =0.2
defprepare_csv(seed=999):
    # 加载训练数据
   df_train = pd.read_csv("data/train.csv")
   df_train["comment_text"] = df_train.comment_text.str.replace("\n", " ")
    idx =np.arange(df_train.shape[0])
    # 将训练数据分成训练集和验证集
   np.random.seed(seed)
   np.random.shuffle(idx)
   val_size =int(len(idx) * VAL_RATIO)
   df_train.iloc[idx[val_size:], :].to_csv("cache/dataset_train.csv", index=False)
   df_train.iloc[idx[:val_size], :].to_csv("cache/dataset_val.csv", index=False)
    # 加载测试数据
   df_test = pd.read_csv("data/test.csv")
   df_test["comment_text"] = df_test.comment_text.str.replace("\n", " ")
   df_test.to_csv("cache/dataset_test.csv", index=False)

主要是为了将数据集分成训练，验证，测试三部分。

二、标记化（Tokenization）

mport re
importspacy
NLP = spacy.load('en')
MAX_CHARS =20000
deftokenizer(comment):
   comment = re.sub(r"[\*\"“”\n\\…\+\-\/\=\(\)‘•:\[\]\|’\!;]", " ", str(comment))
   comment = re.sub(r"[]+", " ",comment)
   comment = re.sub(r"\!+", "!", comment)
   comment = re.sub(r"\,+", ",", comment)
   comment = re.sub(r"\?+", "?", comment)
    # 如果数据太长，将被截断
    if (len(comment) > MAX_CHARS):
       comment = comment[:MAX_CHARS]
    return[x.text for x in NLP.tokenizer(comment) if x.text !=" "]

这里使用正则表达式清洗一下数据，然后，直接调用 Spacy ，使用其中的 tokenizer函数，将文本标记化。

三、加载数据

import logging
importtorch
fromtorchtext
LOGGER = logging.getLogger("toxic_dataset")
defget_dataset(fix_length=100, lower=False, vectors=None):
    ifvectors isnotNone:
       lower =True
   LOGGER.debug("预处理 csv...")
   prepare_csv()
    # 用 torchtext 的 data 类加载数据
   comment = torchtext.data.Field(
       sequential=True,
       fix_length=fix_length,
       tokenize=tokenizer,
       pad_first=True,
       tensor_type=torch.cuda.LongTensor,
       lower=lower
    )
   LOGGER.debug("读 train csv...")
    train=data.TabularDataset(
       path='cache/dataset_train.csv',format='csv', skip_header=True,
       fields=[
           ('id', None),
           ('comment_text', comment),
           ('toxic', data.Field(
               use_vocab=False,sequential=False,tensor_type=torch.cuda.ByteTensor)),
           ('severe_toxic', data.Field(
               use_vocab=False,sequential=False,tensor_type=torch.cuda.ByteTensor)),
           ('obscene', data.Field(
               use_vocab=False,sequential=False,tensor_type=torch.cuda.ByteTensor)),
           ('threat', data.Field(
               use_vocab=False,sequential=False,tensor_type=torch.cuda.ByteTensor)),
           ('insult', data.Field(
               use_vocab=False,sequential=False,tensor_type=torch.cuda.ByteTensor)),
           ('identity_hate', data.Field(
               use_vocab=False,sequential=False,tensor_type=torch.cuda.ByteTensor)),
       ])
   LOGGER.debug("读 test csv file...")
    test =torchtext.data.TabularDataset(
       path='cache/dataset_test.csv',format='csv', 
       skip_header=True,
       fields=[
           ('id', None),
           ('comment_text', comment)
       ])
   LOGGER.debug("构建词表...")
   comment.build_vocab(
       train, val, test,
       max_size=20000,
       min_freq=50,
       vectors=vectors
    )
   LOGGER.debug("预处理结束")
    returntrain.examples, test.examples, comment

data.Field函数，定义了处理数据的pipline，然后返回给了comment，用于在data.TabularDataset中，针对csv 文件里的comment_text这一Field做处理。

其中：

comment =torchtext.data.Field(
   sequential=True,# 该列数据是否是序列数据
   fix_length=fix_length, #最大长度
   tokenize=tokenizer, #标记化函数，上面定义过
   pad_first=True,# 在句子前方 pad
   tensor_type=torch.cuda.LongTensor, #数据转换后的类型
    lower=lower# 是否小写
)

另外，.build_vocab也非常有用。

comment.build_vocab(
   train, val, test,
   max_size=20000, # 词典大小
   min_freq=50,    #词频率最小值
   vectors=vectors #word embedding
)

它能够建立词汇表用于将token 或者词转化成数字，另外，它还能自动对齐word embedding （comment.vocab.vectors`）。

其他几个字段就是 label了，一共有6个：toxic, severe_toxic, obscene, threat, insult, identity_hate都是0-1变量.

data.TabularDataset.splits能够一次读取多个文件比如上面的代码中，我们就同时读取了训练集和验证集。另外，值得注意的是，在fields处理中，必须要按照顺序，一列一列的处理，不能跳过，所以，对一我们不要的那些列，需要显式的声明，比如：("id", None)。

四、分batch和迭代

def get_iterator(dataset, batch_size, train=True,
   shuffle=True,repeat=False):
   dataset_iter = torchtext.data.Iterator(
       dataset, batch_size=batch_size, device=0,
       train=train, shuffle=shuffle, repeat=repeat,
       sort=False
    )
    return dataset_iter

创建迭代器非常简单，我们也可以自定义一些别的属性，不然 repeat 等等。

for examples inget_iterator(
           train_dataset, batch_size, train=True,
           shuffle=True,repeat=False
       ):
    x =examples.comment_text #(fix_length, batch_size) Tensor
    y =torch.stack([
       examples.toxic, 
       examples.severe_toxic, 
       examples.obscene,
       examples.threat, 
       examples.insult, 
       examples.identity_hate
    ],dim=1)