首发于Singularity
Natural Language Processing By Chris Manning And Dan jurafsky 第9篇

Natural Language Processing By Chris Manning And Dan jurafsky 第9篇

这节开始介绍语法解析,上下文无关语法(Context-Free Grammer),概率分布的上下文无关语法(Probabilistic Context-Free Grammar),简称CFG, PCFG,

但是上下文无关语法这种做法的弊端是可能存在二义性问题,

所以才引入了PCFG,需要找到一种方法从多种可能的语法树中找到最可能的一棵树。

语法分析还是一样的,只是最后会增加一个概率函数,

这个就是PCFG的实际情况展示,在规则的旁边又加上了一个概率值,

我们想知道的是一个短语的概率,这个时候我们就要考虑所有的树的情况,所以短语的概率是所有树的情况的概率和,接下来看具体的例子:

从这里就可以看出哪一个句法结构的概率比较高

最出名的语法转换是Chomsky normal form, 这个规则限定了CFG只能有两种简单的形式,X->YZ, X, Y, Z全部都是non-terminals或者non-terminal X重写成terminal W, 所以可以将任何的CFG转换成Chomsky normal form

接下来会引入如何在多项式时间内解析上下文无关的语法,也就是在多项时间内去获取PCFG的最优解析,这种算法叫CKY算法。

编辑于 2018-06-23 14:39