4 短语结构
4 短语结构
4.1 句法层面的语言描写,通常是通过“成分分析”(分析句法)的方式被形式化的。我们现在要问:这样的描写预设了语法的什么形式?我们发现,语法的这种新形式,在本质上比我们之前否定的有限状态模型更为有力,而且与之相联系的“语言层面”概念也在一些根本的方面有所不同。举个简单的例子来说明跟成分分析相联系的(各种)语法的新形式,请看下面:(13)(i) Sentence→NP+VP (ii) NP→T+N (iii) VP→Verb+NP (iv) T→the (v) N→man, ball, etc. (vi) Verb→hit, took, ect.假定我们把(13)中的每一条规则X→Y解释为“将X改写为Y”的指令。我们把(14)称作句子“the man hit the ball”的一个“推导式”,其中每行右侧的数字,指的是由前行构成该行时所使用的“语法”(13)中的规则。(14)Sentence NP+VP (i) T+N+VP (ii) T+N+Verb+NP (iii) the+N+Verb+NP (iv) the+man+Verb+NP (v) the+man+hit+NP (vi) the+man+hit+T+N (ii) the+man+hit+the+N (iv) the+man+hit+the+ball (v)这样,(14)的第二行是根据(13)的规则(i),把第一行的Sentence改写为NP+VP而形成的;第三行是根据(13)的规则(ii),把第二行的NP改写为T+N而形成的;如此等等。我们可以把推导式(14)用下面的图解更明白地展现出来:(15)图解(15)传递的信息比推导式(14)要更少一些,因为它没有告诉我们规则在(14)中应用的次序。给出(14),我们就能惟一地构成(15),但反之则不然,因为我们可以按照不同的规则应用次序构造出一个同样可以简化为(15)的推导式。图解(15)仅保留了(14)中,可以确定“导出句”“the man hit the ball”短语结构(成分分析)的基本要素。如果句中的某个词语序列可被追溯至一个单独的发源点,并且这一点被标记为Z,那么这个词语序列可被称为一个Z型成分。由于“hit the ball”可被追溯至(15)中的VP,因此“hit the ball’就是该导出句中的VP。但“man hit”不能被追溯至(15)中任何一个单独的发源点,因此 “man hit”根本就不是一个组成成分。如果有两个推导式可被化简为(15)那样的相同的图解,我们就说它们是等价的。有时候,按照语法我们可能会给某个句子构造出几个不等价的推导式。在这些情形下,我们可以说是遇到了“结构性同音异义”现象;如果我们的语法没有出错,那么这句话在该语言中就是有歧义的。下面我们还要回到“结构性同音异义”这个重要的概念上来。对(13)进行一般化显然是必要的。我们必须能够把规则的应用限定上在一定的上下文中。因此,如果后面的名词是单数,那么T可以被改写为a,若是复数则不可以;同样,如果前面的名词是man,那么Verb可以被改写为hits,若是men则不可以。总的来说,如果想要把“将X改写为Y”限定在上下文Z—W中,我们可以在语法中写明这条规则:(16)Z+X+W→Z+Y+W例如,就动词的单、复数形式来说,我们不应把Verb→hits加为(13)的一条额外的规则,而是应该用(17)NPsing+Verb→NPsing+hits来表明,Verb仅在上下文NPsing—中被改写为hits。相应地,(13ii)也必须重写,以把NPsing和NPpl包括进去。这是对(13)最直截了当的一般化。不过,(13)的一条特征必须被保留,就像在(17)中那样:在任何单个的规则中,只有一个单个的元素能被改写;也就是说,在(16)中,X必须是一个像T,Verb那样的单独的符号,而不能是象T+N那样的一个序列。如果这个条件未被满足,我们就无法象之前做的那样,从象(15)那样的关联图解中,正确地找到导出句的短语结构。现在我们可以更为一般性地描写这种与基于成分分析的语言结构理论相联系的语法的形式了。每一部这样的语法,由一个包含初始字符串的有限集Σ和一个包含“指令公式”的有限集F来定义,指令公式的形式为X→Y,实解释为“把X改写为Y”。虽然X不必是单个的符号,但在变形为Y的过程中,X中只有一个单个的符号可以被改变。在语法(13)中,初始字符串集合Σ只有一个成员,即单个的符号“sentence”,而集合F包括规则(i)—(vi);不过我们可以想法扩大Σ以把像“Declarative Sentence, Interrogative Sentence”作为额外的符号添加进来。给定语法【Σ,F】,我们把推导式定为一个(包含多条)字符串的有限序列,从Σ的一个初始字符串开始,序列中的每条字符串都通过应用F中的一条指令从前一条字符串推导出来。因此,(14)是一个推导式,而由(14)前五行组成的“五项式字符串序列”也是一个推导式。有些推导式是“终止推导式”,因为它们的最后一条字符串无法被规则F进一步改字。所以(14)就是一个终止推导式,但由(14)前五行组成的序列则不是。假如一条字符串是某个终止推导式的最后一行,我们称它为“终端串”。所以,the+man+hit+the+ball是一条从语法(13)得出的终端串。某些具有【Σ,F】形式的语法可能没有终端串,但我们感兴趣的只是那些有终端串的语法,即,那些描写某种语言的语法。如果某个终端串的集合是由语法【Σ,F】生成的,那么就称这个集合为“终端语言”。因此,每一个这样的语法都定义了某种终端语言(也有可能是不包含任何句子的“空”语言),而每一种终端语言都由某个具有【Σ,F】形式的语法生成。给定一种终端语言及其语法,通过考察(15)那种形式的相关图解,我们就可以象之所做的那样,重构这种语言每个句子(这种语法的每个终端串)的短语结构。我们还能借助有关图解以形式化的方式来定义这些语言中的种种语法关系。4.2 在第3节中,我们考察过一些由有限状态马尔科夫过程生成的、被称为“有限状态语言”的语言。现在我们考察的是一些由具有【Σ,F】形式的系统生成的终端语言。这两种语言类型的关系如下:定理:每种有限状态语言都是终端语言,但有些终端语言不是限状态语言。这条定理的,利用短语结构来描写语言,在本质上要比利用第3节提出的初级理论来描写有力得多。作为是终端语言而非有限状态语言的例子,我们在第三节曾讨论过(10i)和(10ii)两种语言。因此,包含所有且仅包含字符串ab, aabb, aaabbb,……的语言(10i),可以由【Σ,F】语法(18)生成。(18)Σ:ZF:Z→abZ→aZb这个语法有一个初始字符串Z(就像(13)有初始字符串Sentence一样)以及两条规则。容易看出,每一个由(18)构造得来的终止推导式,都会以一条语言(10i)中的字符串结束,而所有这样的字符串都是以这样的方式生成的。同样,(10ii)形式的语言也可由【Σ,F】生成。但是(10iii)却不能用这种类型的语法生成,除非在规则中能体现上下文限制。我们曾在第3节指出,语言(10i)和(10ii)跟英语的某些部分相类似,因此有限状态马尔科夫过程模型对英语来说是不够的。我们现在看到,短语结构模型在这些情形下并未失效。我们还未证明短语结构模型的适当性,但我们已经表明了,英语中有很多根本无法用有限状态模型描写的部分,是可以用短语结构来描写的。从(18)的情形看,比如说在(10i)的字符串aaabbb中,我们可说ab是一个Z,aabb也是一个Z,而aaabbb本身也是一个Z。因此,这个特定的字符串包含了三个“短语”,每一个都是Z。这当然是一种非常琐碎的语言。在描写这门语言的时候我们引进了一个并未被包含在这门语言的句子中的符号Z,观察到这一点是非常重要的。这是关于短语结构的基本事实,这一事实赋予短语结构以“抽象”的性质。还请观察,在(13)和(18)两种情形中(每一个短语结构系统都是这样),每一条终端串都有许多不同的表达式。例如,在(13)的情形中,终端串“the man hit the ball”是由字符串sentence, NP+VP, T+N+VP, 以及(14)的所有其它行表示的;还可以由NP+Verb+NP,T+N+hit+NP等类似的字符串来表示,这些字符串可能会出现在别的根据前面定义与(14)等值的推导式中。这样,在短语结构层面,该语言的每个句子都是由一个字符串集合表示,而不像在音位、语素、单词等层面由单个的字符串表示。因此作为语言层面的短句结构,具有根本不同的、非琐碎的特征。这种特征,如我们在第3节最后一段所看到的那样,正是某些语言层面所需要的。我们不能给“the man hit the ball”的不同表示形式设定等级,不能把短语结构系统再分割为一个包含多个语言层面的有限集。这些层面从高至低排列,每个句子在每个子层面都有一个表现形式。比如说,对有相互关系的NP和VP元素,是无法进行排序的。在英语中,名词短语被包含在动词短语内,而动词短语也可被包含在名词短语中。短语结构必须被考虑为一个单一的层面,对该语言的每个句子都有一个表达式的集合。4.3 假设我们可以用【Σ,F】语法生成某语言所有合语法的语素序列。为完成这一语法,我们必须说明这些语素的音位结构,以使该语法可以生成该语言合语法的音位序列。这一说明(我们可称之为形态音位学)也可以用一套形式为“将X改写为Y”的规则给出,以英语为例:(19)(i) walk→/wok/ (ii)take+past→/tuk/ (iii)hit+past→/hit/ (iv) /...D/+past→/...D/+/id/(where D=/t/ or /d/) (v) /...Cunv/+past→/...Cunv/+/t/ (where Cunv is an unvoiced consonant) (vi) past→/d/ (vii) take→/teky/ Etc诸如此类。顺便提示一下,这些规则的次序必须被规定下来。比如(ii)必须在(v)或(vii)的前面,否则我们就会把take的过去式推导为诸如/teykt/之类的形式。在这些形态音位规则中,我们就无需再要求每条规则只改写一个符号了。我们现在可以通过应用(19)来扩展短语结构的推导式,以便得到一个从初始字符串sentence到生成音位序列的统一的过程。这样做,显得短语结构这一较高层面与那些较低的层面之间的间隔好像是任意的。实际上,这种区分并非任意。首先,我们已经看到,相应于短语结构的规则X→Y在形式上特性与那些形态音位规则不同,因为对于前者我们必须要求每次只能改写一个符号。其次,在规则(19)中出现的元素可以被归类进一个包含多个层面的有限集合(如,音位和语素;或许为,音位、语素音位、语素),每一个层面在此意义上都是最基本的:一条单个的该层面元素的字符串就是一个句子在该层面的表现形式(同音结构的情形除外),而每一条这样的字符串只代表一个句子。但是出现在短语结构规则中的元素不能用这种方式分为较高或较低的层面。我们将会在下文看到,将这种区分标记为短语结构的较高层面规则和将语素字符串转化为音位的较低层面规则,还有更为根本的理由。短语结构系统的形式特点是一个很有意思的研究课题,不难看出,对语法形式的进一步细化既是必要的,也是可能的。因此也不难看出,对集合F的规则按应用的先后进行排序是非常有好处的。例如,我们当然想要把所有(17)那种形式的规则应用在任何让我们把NP改写为NP+Preposition+NP之类的规则之前,否则,该语法就会生成像“the men near the truck begins work at eight”之类的非句。但是这种细化会导致一些问题,把我们带了现在的研究范围。