Tokenization is an important first step in Natural Language Processing (NLP) pipelines because it decides how models learn and represent linguistic information. However, current subword tokenizers like SentencePiece or HuggingFace BPE are mostly designed for Latin or multilingual corpora and do not perform well on languages with rich morphology such as Bengali. To address this limitation, we present BengaliBPE, a Byte Pair Encoding (BPE) tokenizer specifically developed for the Bengali script. BengaliBPE applies Unicode normalization, grapheme-level initialization, and morphology-aware merge rules to maintain linguistic consistency and preserve subword integrity. We use a large-scale Bengali news classification dataset to compare BengaliBPE with three baselines: Whitespace, SentencePiece BPE, and HuggingFace BPE. The evaluation considers tokenization granularity, encoding speed, and downstream classification accuracy. While all methods perform reasonably well, BengaliBPE provides the most detailed segmentation and the best morphological interpretability, albeit with slightly higher computational cost. These findings highlight the importance of language-aware tokenization for morphologically rich scripts and establish BengaliBPE as a strong foundation for future Bengali NLP systems, including large-scale pretraining of contextual language models.


翻译:分词是自然语言处理(NLP)流程中的重要初始步骤,因为它决定了模型如何学习和表示语言信息。然而,当前诸如SentencePiece或HuggingFace BPE等子词分词器主要针对拉丁语系或多语言语料库设计,在孟加拉语这类形态丰富的语言上表现不佳。为应对这一局限,我们提出了BengaliBPE——一种专门为孟加拉文字设计的字节对编码(BPE)分词器。BengaliBPE应用Unicode规范化、字位级初始化和形态感知合并规则,以保持语言一致性和维护子词完整性。我们使用大规模孟加拉语新闻分类数据集,将BengaliBPE与三种基线方法进行比较:空格分词、SentencePiece BPE和HuggingFace BPE。评估涵盖分词粒度、编码速度和下游分类准确性。尽管所有方法均表现良好,但BengaliBPE提供了最精细的分割和最佳的形态可解释性,尽管其计算成本略高。这些发现突显了针对形态丰富文字的语言感知分词的重要性,并为未来孟加拉语NLP系统(包括上下文语言模型的大规模预训练)奠定了坚实基础。

0
下载
关闭预览

相关内容

将一个汉字序列切分成一个一个单独的词
EMNLP 2021 | 预训练跨语言模型中的大词表构建及使用
专知会员服务
22+阅读 · 2022年1月5日
论文报告 | Graph-based Neural Multi-Document Summarization
科技创新与创业
15+阅读 · 2017年12月15日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员