Text simplification (TS) is the process of generating easy-to-understand sentences from a given sentence or piece of text. The aim of TS is to reduce both the lexical (which refers to vocabulary complexity and meaning) and syntactic (which refers to the sentence structure) complexity of a given text or sentence without the loss of meaning or nuance. In this paper, we present \textsc{SimpLex}, a novel simplification architecture for generating simplified English sentences. To generate a simplified sentence, the proposed architecture uses either word embeddings (i.e., Word2Vec) and perplexity, or sentence transformers (i.e., BERT, RoBERTa, and GPT2) and cosine similarity. The solution is incorporated into a user-friendly and simple-to-use software. We evaluate our system using two metrics, i.e., SARI, and Perplexity Decrease. Experimentally, we observe that the transformer models outperform the other models in terms of the SARI score. However, in terms of Perplexity, the Word-Embeddings-based models achieve the biggest decrease. Thus, the main contributions of this paper are: (1) We propose a new Word Embedding and Transformer based algorithm for text simplification; (2) We design \textsc{SimpLex} -- a modular novel text simplification system -- that can provide a baseline for further research; and (3) We perform an in-depth analysis of our solution and compare our results with two state-of-the-art models, i.e., LightLS [19] and NTS-w2v [44]. We also make the code publicly available online.


翻译:文本简化是指从给定的句子或文本中生成易于理解的句子的过程。简化的目的是减少文本或句子中的词汇复杂性(指词汇量复杂性和意义)和句法复杂性(指句子结构),而不会丢失意义或细微差别。 在本文中,我们提出了SimpLex,一种用于生成简化英语句子的新型简化架构。为了生成简化的句子,所提出的架构使用词嵌入(例如Word2Vec)和困惑度,或使用句子转换器(例如BERT,RoBERTa和GPT2)和余弦相似性。该解决方案结合了一个用户友好且简单易用的软件。我们使用两个度量标准(即SARI和困惑度降低)来评估我们的系统。实验结果表明,变换器模型在SARI评分方面优于其他模型。然而,就困惑度而言,基于Word Embeddings的模型取得了最大的降低。因此,本文的主要贡献是:(1)我们提出了一种新的基于词嵌入和变换器的文本简化算法;(2)我们设计了一个模块化的新型文本简化系统SimpLex,它可以为进一步的研究提供基线;(3)我们对我们的解决方案进行了深入分析,并将我们的结果与两个最先进的模型(即LightLS [19]和NTS-w2v [44])进行了比较。我们还在网上公开了代码。

0
下载
关闭预览

相关内容

【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
谷歌&HuggingFace| 零样本能力最强的语言模型结构
夕小瑶的卖萌屋
0+阅读 · 2022年6月23日
RoBERTa中文预训练模型:RoBERTa for Chinese
PaperWeekly
57+阅读 · 2019年9月16日
Hierarchically Structured Meta-learning
CreateAMind
23+阅读 · 2019年5月22日
NLP预训练模型大集合!
全球人工智能
31+阅读 · 2018年12月29日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年5月31日
VIP会员
相关VIP内容
【文本生成现代方法】Modern Methods for Text Generation
专知会员服务
43+阅读 · 2020年9月11日
BERT进展2019四篇必读论文
专知会员服务
66+阅读 · 2020年1月2日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员