Language models, especially transformer-based ones, have achieved colossal success in NLP. To be precise, studies like BERT for NLU and works like GPT-3 for NLG are very important. If we consider DNA sequences as a text written with an alphabet of four letters representing the nucleotides, they are similar in structure to natural languages. This similarity has led to the development of discriminative language models such as DNABert in the field of DNA-related bioinformatics. To our knowledge, however, the generative side of the coin is still largely unexplored. Therefore, we have focused on the development of an autoregressive generative language model such as GPT-3 for DNA sequences. Since working with whole DNA sequences is challenging without extensive computational resources, we decided to conduct our study on a smaller scale and focus on nucleotide sequences of human genes rather than the whole DNA. This decision has not changed the structure of the problem, as both DNA and genes can be considered as 1D sequences consisting of four different nucleotides without losing much information and without oversimplification. Firstly, we systematically studied an almost entirely unexplored problem and observed that RNNs perform best, while simple techniques such as N-grams are also promising. Another beneficial point was learning how to work with generative models on languages we do not understand, unlike natural languages. The importance of using real-world tasks beyond classical metrics such as perplexity was noted. In addition, we examined whether the data-hungry nature of these models can be altered by selecting a language with minimal vocabulary size, four due to four different types of nucleotides. The reason for reviewing this was that choosing such a language might make the problem easier. However, in this study, we found that this did not change the amount of data required very much.


翻译:语言模型,尤其是基于Transformer的模型,已在自然语言处理领域取得巨大成功。具体而言,诸如BERT在自然语言理解方面的研究以及GPT-3在自然语言生成方面的工作都具有重要意义。若将DNA序列视为由代表四种核苷酸的字母表所书写的文本,其在结构上与自然语言具有相似性。这种相似性推动了DNA相关生物信息学领域中判别式语言模型(如DNABert)的发展。然而,据我们所知,生成式模型方面在很大程度上仍未得到充分探索。因此,我们专注于开发一种用于DNA序列的自回归生成式语言模型,例如GPT-3。由于在缺乏大量计算资源的情况下处理完整DNA序列具有挑战性,我们决定在较小规模上开展研究,专注于人类基因的核苷酸序列而非整个DNA。这一决策并未改变问题的结构,因为DNA和基因均可被视为由四种不同核苷酸组成的一维序列,而不会丢失过多信息或过度简化。首先,我们系统研究了一个几乎完全未被探索的问题,并观察到循环神经网络表现最佳,而简单技术如N-gram也展现出潜力。另一个有益的发现是学会了如何在无法理解的语言(与自然语言不同)上使用生成式模型。我们注意到,除了困惑度等经典指标外,使用实际任务进行评估的重要性。此外,我们通过选择词汇量极小的语言(由于四种核苷酸类型,词汇量为四)来检验这些模型对数据量的需求是否可能改变。探讨此问题的原因在于,选择此类语言或可使问题简化。然而,在本研究中,我们发现这并未显著改变所需的数据量。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
基于Transformer的BERT和GPT语言模型学习, 75页ppt
专知会员服务
35+阅读 · 2024年6月7日
专知会员服务
34+阅读 · 2021年8月16日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员