在计算语言学和概率领域,n-gram是来自给定文本或语音样本的n个项的连续序列。根据应用,可以是音素,音节,字母,单词。通常从文本或语音语料库中收集n-gram。n元语法模型是一种概率语言模型,用于以(n −1)阶马尔可夫模型的形式预测这种序列中的下一项。 n-gram模型现在广泛用于概率,交流理论,计算语言学(例如,统计自然语言处理),计算生物学(例如,生物序列分析)和数据压缩。 n元语法模型(以及使用它们的算法)的两个好处是简单性和可伸缩性,n较大时,模型可以存储更多上下文,并具有很好的时空权衡,使小型实验得以有效扩展。

精品内容

没有数据了, 换个别的吧!
参考链接
微信扫码咨询专知VIP会员