一个关于单语动词【送】的微型语法框架

赛义甫

来自:赛义甫(大道无门,千差有路) 组长
2013-10-29 09:03:39

×
加入小组后即可参加投票
  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-10-30 04:06:41

    一些假设(assumptions)

    1。汉字序列(character sequence):我们将由汉字组成的字串叫做汉字序列。汉字序列通常是指准备接受语法检查是否合格的候选对象,所以汉字序列既可以是人见人懂的合法句子,也可以是像‘乱码’一样的无意义汉字集合体。而汉字序列是否构成句子,由’语法‘说了算。

    1. 语法(grammar):由短语结构规则,转换规则和作为制约条件的原则(principle)构成。

    语法包括了短语结构语法的结构描述(structure description SD),转换规则的名称,转换完成后的结构变化(structure change SC),以及所适用的制约原则。

    1. 成分结构(constituent structure)和构造体(construction)

    汉语中句子与短语(sentence and phrase)的边界(boundary)不是很清楚。例如: (1) a. 吃了再说。 b. 寒来暑往。

    (1a)算不算句子?如果算,那么这个句子的省略主语可以加上去吗?确实存在可以省略主语(特别是当主语是第一人称时)的语言,如日语,西班牙语,意大利语等。但在这些所谓pro-drop的语言中,所省略的主语都是不言而喻的(understood),是可以加上去的。而(1a)的被省略的主语似乎第一、二、三人称都可以(我个人的语感)。 (1b)算不算句子?如果主谓可构成‘句子’,(1b)更像是并列句,由两个分句构成。但我们通常是将(1b)用作话语的某一部分,而不是单独的‘句子’。 所以,为了避免上述的困扰,我们通常用‘成分结构’(constituent structure)描述诸如像(1)中的汉字序列的结构,而用一个归纳性的名称’构造体‘(construction)作为在忽略其内部结构时的称呼(notion)。

    1. 转换规则的种类:

    1)移动(move) 2)复制(duplicate) 3)删除(delete) 4)倒置(invert)

    1. 短语结构规则:

    X-bar理论:XP[X'...[X..]]] 任何短语都包含一个可以决定其整个短语性质的中心词(head),中心词与出限定词(determiner)之外的任何其他成分构成的构造体为X-bar层次的第一级X‘;这个构造体与限定词构成X-bar层次的第二级X'’。第二级通常是最小层级(lowest level)的最大投射(maximal projection)。具有最大投射的X‘’通常标识为XP。

    1. 词库:词库中的动词词类的实例只有一个:【送】,而其它词类的实例是开放的:包括名词、代词等。同时还有一个暂定的词类,我暂且叫做助动词(quasi-verb),这个词类的的实例也只有一个:【给】。
  • Dinsdale Alley

    Dinsdale Alley (welcome to the adult world) 2013-11-02 04:43:26

    我又来搅局了,随便胡邹,请各位看官见谅。

    如果讨论语义是【送+某人+某物】,或者【送给+某人+某物】(其实两个是相等的,至少我想不出不带给语义的变化)

    有两个结构:

    1 a我送(给)你一本书。 b我送一本书给你。

    其中【给】是只引入有生命的宾语(即使是无生命的宾语也做有生命解,比如 我送给历史博物馆一批书)。

    这个两个结构在以送为动词的句子里是没有区别的。a的树图就是英语的双宾结构壳结构。b的树图本应是双补结构double complement construction,但是由于给的特殊性,是不能直接用双补结构的。因为我认为b的给和a的给性质不同,a给是助动词(quasi-verb), b给其实是动词。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-02 10:10:38

    其实我们的讨论应当从词库开始。【送】这个词汇项应当包含哪些语言信息呢?学英语的大概都用过不同版本的朗曼或牛津学习词典。在这些词典中,每一个词汇项大致都包含了下列的信息:

    1. 词汇项的字面拼写
    2. 发音:用国际音标
    3. 各种变体:动词包括现在/过去分词;动名词;名词包括复数形态;派生词
    4. 词类:规定品词
    5. 用一些特殊的符号表示该词汇项与其它词汇项的搭配
    6. 定义:用自然语言定义该词汇项的语义。
    7. 例句和用法

    语言学意义上的词库,其实就是利用一些描述工具对这些信息的重新组织。为了让讨论不那么‘形式化’,我们可以用一个表格的形式定义: 首先,我们把词库中所定义的语法信息都给出一个条目,在条目后规定这个这个条目应该有的‘内容’。就像一般的表格一样,在姓名这个条目内,所期望的‘值’是一个让人觉得是人的姓名的字串,而年龄条目则规定必须填写数字(千万别抬杠跟我说可以用英语单词'one two three'或汉语的‘壹贰叁’等)。一般的,我们将条目称作‘属性’(attribute),而‘属性’后面的的内容称作值(value)。 例如:我们的词库可以有下列信息: 属性............值


    词项.........‘送’ 语音........./song/ 句法........NP+NP 或 给+NP+NP 语义........接受者 目标 或 给 接受者 目标

    对上述表格一个比较‘formal’的称呼是属性/值表(attribute/value matrix)。有人将matrix翻译成‘矩阵’,但本人并不想在这里吓唬人:))。计算机编程的人把这个叫做Map,翻译成‘映射’。还有人将它称作‘函数’。反正不管叫什么,你知道在这些唬人的名词后面的东西其实就是这么一个简单不能再简单的表格就可以了。

  • Dinsdale Alley

    Dinsdale Alley (welcome to the adult world) 2013-11-06 02:09:38

    词库接下来是什么呢? 一般语法框架的顺序都是什么呢?

  • Dinsdale Alley

    Dinsdale Alley (welcome to the adult world) 2013-11-06 02:29:24

    请问matrix是数学里面的哪一个部分呢?反映了什么原理? 我只会算两个矩阵的乘法,但不知道这个是干什么的。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-06 13:38:42

    词库的基本结构就是属性/值对(attribute/value pair)的表格。至于matrix,map,或者function什么的,现在没有追究其数学意义的必要,因为我们现在感兴趣的是建立词库本身,并且分析它的性质。 仔细看一下我们上面的词库,我们会发现每一个词项实际上是一个语音、字形、词义和句法四个单元组成的。词项则是由一个到多个属性/值对构成。而且,我们对‘值’也有一定的形式要求。例如:字形必须是由汉字构成,语音则是由汉语拼音字母构成。句法的值,和前两个不一样,是由多个范畴名称组成(当然,这些范畴名称我们也必须在某个地方定义),例如NP、PP等。也就是说,句法的的值不是一个单值,而是由一系列值构成:<NP, NP, 给>,这一系列的值又作为一个整体当做句法的值。我们把这样的值叫做表(list)。表的最大特点就是它是由零到多个值构成,并且它们是按顺序排列的。顺序不同其值也不同。至于语义,由于涉及的东西太多,暂先假定是由情景、角色、关系三大要素构成。我们这里先不给出严格定义。 看到这里,有些朋友可能已经看出,我这里定义的词库和P&P理论不大一样了。P&P理论中的词库,只规定了句法关系而没有语音和语义。后二者是在S结构生成之后才派生出来的。也就是说,P&P理论中的句子,从词库到D结构经转换到S结构,是没有语音,语义的。直到S结构产生之后才‘兵分两路’,有了相应的PF和LF。而我这里一开始就定义语音,语义。这个思想,是非主流生成语法学派与主流学派的分歧点之一。主流的P&P认为词库、句法、语音、 语义是一个线性的推导关系(derivational operation),而非主流学派则认为它们的关系应当是并行的关系(parallel and declarative specification)。LFG、HPSG是这个非主流学派的代表性理论。HPSG借用了索绪尔的‘符号’的概念(sign),认为任何语言的单位都可以归结为能指(signifiant)和所指(signifié),而符号则是二者的综合体(lien de l'association)。但将这个概念进一步发展,将能指具体化为语言本身的物理形式:字形、语音;所指则是语义。并且加上了句法。也就是说,一个完整的语言符号应当是由语音/字形,句法和语义构成。 在我们词库的定义中,我们不但定义了该词本身的属性,而且还设定了该词与其他词组合的可能性。这个句法属性,又称作‘次范畴化’(subcategorization),也称作配价(valence)。词库的这个属性,决定了以后多个语法模块的可应用性,如语法功能、最大投射、题元角色、格理论、管辖等。应当说,词库的信息越详细,普适性的语法规则就越简单,因为词库的作用是处理语法中不规则的现象(idiosyncrasy),而语法规则负责处理规则性的语法问题。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-08 09:17:24

    词项的性质,似乎是由范畴(词类)、功能(主谓宾)和抽象格共同确定的。因此可以把这三者定义为一个三维空间:a lexical token := (category, function, case)。换句话说,一旦确定了某个词项的词类,语法功能和抽象格,这个词的token在某个语法单元中的行为和分布就可以确定。

  • Dinsdale Alley

    Dinsdale Alley (welcome to the adult world) 2013-11-13 04:03:13

    这样我就明白了,关注一个词的句法表现主要关注词类功能和抽象格。 ‘在我们词库的定义中,我们不但定义了该词本身的属性,而且还设定了该词与其他词组合的可能性。这个句法属性,又称作‘次范畴化’(subcategorization),也称作配价(valence)。词库的这个属性,决定了以后多个语法模块的可应用性,如语法功能、最大投射、题元角色、格理论、管辖等。应当说,词库的信息越详细,普适性的语法规则就越简单,因为词库的作用是处理语法中不规则的现象(idiosyncrasy),而语法规则负责处理规则性的语法问题。’ 对于这一段我的理解是,·morphology·和syntax的接口在于syntax给出句法的规则,morphology解决词的差异,所以对于词的理解深刻就能简化语法规则(把大部分不规则的现象不再在句法层面细分,而是深化到词类差异的层面上)。我突然觉得汉语研究好先进,词源考证什么的不就是·morphology·嘛?汉语研究都是什么关于给的研究,把的研究,被的研究。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-13 08:19:41

    符号的‘所指’(signifié)和‘能指’(signifiant)的意思可以用下列例句加深理解: 2 a. Chris is a five letters' string. b. Chris is a friend of mine.

    2a在‘能指’signifiant)的意义上是正确的,因为单词'Chris'确实是由五个字母组成,但是在‘所指’(signifié)的意义上就不正确了,因为Chris是一个人不是字母。 2b正相反:在‘能指’signifiant)的意义上是不正确的,而在‘所指’(signifié)的意义上是正确的。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-16 10:06:21

    现在谈谈短语结构规则(PSR)。关于PSR,我们采用X-bar理论,因为它比其它的重写系统具有更强的表达力(expressive power)。 首先,应当将所出现的句法对象分为两类:

    1. 词项实例(lexical token/instance),也就是出现在句子中的单词;
    2. 词类(lexical class):包括X‘,X“和X。

    X的上标表示层次:X表示层次为0,是原子范畴(atomic category),亦即X不能由其它成分组成。 X’表示表示层次为1,表示一个以X为中心词类的成分结构 X”表示层次为2,也是所规定的最大层次,表示是由一个限定成分和X'构成的成分结构。 3. 由所有X、X‘和X“的集合构成的词汇表称作Vn。 对某个X来说一个标有X”的成分可以看做是对该X的最大投射(maximal projection) 我们所确定的X-bar理论的基本原则:

    1. 词汇性(lexicality):对于所有Xi (0<= i <= 2)都存在一个X(X0)
    2. 一致性(uniformity):对于每一个X,都存在一个X“
    3. 继承性(succession):对每一个Xi(i > 0)都存在一个Xi-1(亦即,对于X”,都存在一个X',对于每一个X'都存在一个X)作为该Xi的子女中心成分(head daughter)
    4. 中心性(centrality):对于某个X,其根节点是X“
    5. 最大投射性(maximality):若子女成分是非中心成分,则一定是最大投射
    6. 可选性(optionality):若子女成分是非中心成分,则是可选的

    以上陈述的X-bar原则源自于(Kornai & Pullum 1990发表在‘Language’杂志的论文 ‘The X-Bar theory of phrase structure’)

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-17 07:28:24

    请问matrix是数学里面的哪一个部分呢?反映了什么原理? 我只会算两个矩阵的乘法,但不知道这个 请问matrix是数学里面的哪一个部分呢?反映了什么原理? 我只会算两个矩阵的乘法,但不知道这个是干什么的。 ... Dinsdale Alley

    这里想厘清一个概念:复合型元素(complex element)和单体元素(atomic element)。数学中一个矩阵是由若干个数按照行和列排列,但是可以看做是一个整体:例如可用字母A表示一个矩阵,字母B表示另外一个矩阵。这时,这两个矩阵就可以当做两个数处理:A+B,A-B,A*B,A÷B等。类似地,像集合、表、字符串等都是如此。如果一个元素可以分解成更小的成分,我们称之为符合元素,无法分解的称之为单体或原子元素。在一般语言学中,在句法层次上单词是单体元素,短语是复合元素;在词法层次上,单词是复合元素,语素是单体元素;在音位层次上,音节是复合元素,音素(phoneme)是单体元素。在命题逻辑中,语句(statement)/ 命题是原子元素,而在一阶谓词逻辑中语句/命题是复合元素。 在我们现在这个微型句法框架中,我们将所有的句法层次上语言对象(linguistic object),包括单词、短语都看做是和矩阵一样的复合元素,也就是说,这些语言对象都是可分析的/可解析的(analytical)。 这一点,和P&P理论对语言对象的看法很不一样:句法层次上的任何语言对象都是像矩阵那样的有内部结构的复合元素,而不是像一般数字那样的单体元素。P&P理论将句法层次上的词汇看做是单体元素。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-24 04:56:51

    这样,句法层次上的任何语言对象都是一个三维空间的对象:范畴、格、功能。在任何句法结构中,可以改变的只有功能,而范畴和格是不会改变的。由于汉语没有形态格,有些语法现象无法从句法角度解释:

    a. 我很暖和。 b. 天气很暖和。 对这两个句子的区别历来无法从句法上解释,只能求助于主语字面意义的区别。如果对比相应的德语句子,区别一目了然: 2. a. Mir ist warm. b. Der Tag ist warm.

    2a中的主语是dative格,而2b中的主语是nominative格。

    a. 你怎么了?我没事儿。 b. 你今天有事儿吗?我没事儿。

    对3a和3b中'‘我没事儿’'这样相同的utterance不同的解读(interpretation)如果没有更高的句法维度,恐怕连语义解释都无济于事,只能借助于‘语用’了。 数学中有一维的数轴,二维的平面和三维的空间,这里我们可以将一维的数轴,二维的平面看作是三维空间的特殊形式:前者只有一个可变的量,后两个量被缺省地设为0;后者则有两个可变的量:最后一个量被缺省地设为0。从一维的角度和从二维的角度看问题绝对不一样;推而广之,每增加一个维度,都会对同一问题产生完全不同的解读。 从UG的角度来看,作为参数,汉语中许多句法对象的维度被缺省地设为二维:范畴和功能,亦即,作为第三维的格,尚未作为一个可变的量加入进句法对象之间互动的因素。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-24 06:45:39

    对这个语法框架,我也是‘摸着石头过河’。想到的除了范畴、功能、格之外,也许还有第四维:确定性(definiteness)。 4. a. ?一朵花送给你。 b. 这朵花送给你。 c. 花送给你。

    如果不从一阶谓词逻辑的角度研究其量词的辖域(scope),那么其中的区别就是‘确定性’。 4c和4a、4b句法上的区别是:前者没有限定词,而后者(4a和4b)有限定词。语义上看,前者指称‘类型’,后者指称实例(token)。句法和语义这种对应关系是否是一对一‘映射’,尚未做大规模调查。如果谁有反例,请提供。 由于量词辖域确实影响到句法,这是我迄今第一次在这个语法框架中提到‘语义’。由于暂时不想受到语义干扰,且这种对应关系尚未得到确认。因此只从句法角度考虑: 1)名词前面没有限定成分; 2)有数量词作为限定 ......2a)以‘一+量助词’作为限定 ......2b)以其它数词+量助词’(除‘一’以外的其它数词以及‘几’),和其它不定量词,如‘许多、多少’等作为限定。 3)指定限定:这、那、哪,这些、那些、哪些,以及‘这/那/哪’+集合量助词(如‘堆、捆、群’等)。

    如果‘确定性’作为句法对象维度的第四维,那么一个句法对象就有了这样的描述:

    句法对象(范畴,功能,格,确定性)。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2013-11-24 07:33:05

    前面定义的词库,包括了语音和语义,但是如果把这些东西全加进来,势必使分析变得非常复杂。汉语的语音很复杂,包括语言对象之间组合后的音调变化等等。语义亦是如此;况且汉语中句法和语义的边界在哪里并不是很清楚。 这里的策略是:最大化句法范围,看看能覆盖到什么程度,从而使这个句法框架尽量的简单(simplistic)、精确(precise)、明晰(explicit)。 因此词库中的缺省设定为句法的四维:范畴、功能、格、和确定性;其中,功能和格是待定元素,在词库中有属性没有值。这里又牵涉到一个非常重要的概念:partial information structure。今天先不说了,下一栏专门讨论一下。

  • 赛义甫

    赛义甫 (大道无门,千差有路) 组长 楼主 2014-10-19 05:47:58

    对这个玩具框架一直没有更新,除了‘时间’(最好的托词?)原因外,我自己对于如何建立语法框架的想法有了很大的改变,而汉语的语言资料远比我想象的更为复杂、难以捉摸,特别是汉语的句法维度很难把握,是世界上少有的音义同型语言,要求比其它语言更高的维度。就连一个【送】字的语法描述也觉得很难很难,且不说形态与句法、句法与语义、语义与音位的边界都无法精确定义。现在尚且知难而退,待以后积蓄了更大的实力后再去尝试。

你的回复

回复请先 , 或 注册

1118 人聚集在这个小组
↑回顶部