《红楼梦》:一次基于字频的简单结构分析
《红楼梦》是一本复杂的书;我们如果不够专心,就会常常发现自己读到情节的后面而忘记了前面,读到结果而忘了原因,读到动作而忘了人物。很明显,《红楼梦》的情节组织方式与其他小说很不一样。大部分小说的情节,总体来看是线性的,即事件之间界限较为分明、不会重合,上一个事件总是引出下一个事件,具有清晰的逻辑关联。《西游记》《围城》和《简·爱》就是这种叙述方式的典型。另一些小说的情节具有辐射性的元素,一些暂时相互关联不大的事件围绕着一个中心产生,或生发于这个中心,或汇聚到这个中心。《水浒传》《喧哗与骚动》和《所有我们看不见的光》属于这种结构。然而,与这两类不同,《红楼梦》呈现网状、多核心的结构。在许多地方,小说似乎舍弃了情节的逻辑关联,使性质毫不相关的事件自由交错、重叠;当一些较大的事件发生时,它们又能成为其他情节可以围绕着旋转的中心体;有时候,一些小情节也能自发汇聚成为一种中心。
在总体上,这样的作品呈现一种分形结构:从贯穿全书的最大的故事弧开始,每一级情节都与许多更小的一级情节共存、叠加、混响。历史上,只有少数独特、伟大的小说具有这种性质。在本华·曼德博(Benoît Mandelbrot)发现分形之前,安德烈·莫罗亚(André Maurois)曾经将《追忆似水年华》的结构描述为一座“大教堂”,由大大小小的“圆拱”共同稳固地支撑起来[1];这一比喻也可以应用于《红楼梦》我相信,与《追忆似水年华》类似,《红楼梦》的复杂并不是像一眼看上去那样由于缺乏条理,而是由于情节线条的多层次组合难以简单地看清。
在摄影学上,人们常用直方图分析图片的曝光结构;在化学上,人们常用光谱和质谱分析物质的原子组成。这些方法的共同点在于通过选择有概括意义的指标并图形化,最终从复杂的物质中提取信息。在此,我选择了一种在文本分析领域常用的方法,编写python程序对《红楼梦》中1500个常用单字按回目进行了频率统计。
在此之前,有不少研究者也做过相关的实验。除字频之外,他们还使用了无监督分词、基于特征向量的降维分析等机器学习技术,得出一些有趣的结果[2]。然而,这些研究往往注重于前八十回和后四十回的风格分析,并着力于证明这两部分并非同一人所写这一早已被确立、几乎没有必要再去怀疑的观点;再者,这些研究常常完全基于数学算法得出的抽象结果而缺乏文本基础,并不具有很大的结论意义。我相信,统计分析只能被当作一种提示,而非一种论证;接下来,我将用朴素的字频数据引出一些猜想。

“笑”字的频率排在最常用单字的第15位。它的频率直方图中间高、结尾低的总体趋势与我们对贾府由兴盛走向没落的发展的认识完全相符。更深入地观察时,我们还能发现,这张图大致由一系列下降的阶梯构成:
——前18回似乎没有规律,这里暂时忽略(其中第九回的低谷是偶然现象);
——从第19回到第34回有很明显的两个阶梯;我们把它们看作一个,因为第25回并没有下降到底(在文本上它对应凤姐、宝玉发疯的一段,虽然逻辑时间跨度很长,写得却并不铺张,并且是一个喜剧情节);
——从第35回到第69回是第二个阶梯;
——从第70回到结尾是最后一个阶梯。
事实上,这种三级阶梯的现象在许多其他常用字的频率分布中也有出现。它们虽然没有很清晰的阶梯形状和分界,但我们也能大致辨认出分界点大约在第35和70回的三段结构;同时,1至17回也有相对独立的倾向。

有人会怀疑以上数据是有意挑选出来支持这个结果的;在某种程度上,我不否认这一说法:在所有的字频图表中,还存在17/58和26/80等不同分界现象,各有一定数量的单字与之符合。我们选择35/70的分界来详加讨论,是考虑到这种分界较为普遍、具有结构上的重要意义,并且80回之后续文风格的不同影响了数据的连续性。
基于这些统计结果,我们可以有一定信心地把《红楼梦》分为四个部分。现在,我们结合文本讨论这么做的实际意义。
第一部分(1~17回),从开头写到元妃游大观园结束为止;这一部分不仅通过前五回概括了全书的设定,也将多数主要人物的样貌、性格进行了精巧的刻画,并对宁府、荣府作了地理和人文的概览。在叙述上来看,作为楔子性质的第一部分也必须划到这里而不是第5回;只有在大约17回之后,我们才能第一次说我们对贾府有了可与其中人物所有的相当的理解。
第二部分(18~约35回),对应第一阶梯;这里, 真正的生活步入正轨。黛玉葬花发生在这一部分中间(第27回),作为全书第一个高潮。从这一部分结尾处开始,第32至37回从金钏儿之死写到海棠社创立,完成了向新一阶段的过渡。
第三部分(约36~69回),对应第二阶梯。前半部分主要描写作诗取乐,是全书表现幸福生活的顶点,但写得十分绵长、生活化,不能被叫做高潮。大致以春节祭祖和元宵宴为分界点的后半部分,主要包含非常日常化的琐事,尴尬、不和与快乐相错综混杂,写得非常细碎,仿佛一个不好读的反高潮;然而正是在这一部分,不安稳的迹象开始集中渗透进生活,而且也正是在这里,人物之间的感情潜移默化地加深到了这样一种程度,以至于在不经意间你突然会发现所有人都不可或缺,每一个人仿佛都需要所有其他人——我指的是所有人,不仅仅是那些不能称为情人的情人们——在一种如此美好、如此脆弱而必不长久的令人心碎的状态之下。第65回之后宕开一笔(仿佛一种转调)写贾琏的淫荡生活,直到尤二姐、尤三姐自杀,进入第四部分。
第四部分(第70回之后)以桃花社的建立开头。这是一个转折性、富有象征意义的场景;在这里,孩子们的诗歌已经浸染了他们有意无意间对自我身份的怀疑、对自己作为“局外人”和生活作为一种流浪的本质的默默接受。第70回结尾,他们放起风筝,最后剪断所有的线,如同放走他们充满理想主义的童年:在这一回之后,他们不再能回到过去,注定已经要以失去童年之人的角色参与进周围世界的衰退。接下来的情节不必多说。
研究“政”字的频率时,我发现了另一个有趣的细节。第35至70回,它的频率基本为零;第37回贾政出发上班,第70回返乡:整个第二阶梯都是他不在家或准备出门的日子。这也更加证实了《红楼梦》在杂乱表象下布局之工整,以及35/70界线的重要性。
剩下的一个问题,就是在1~35回和36~70回的工整形式之后,第三阶梯(71~120回)破坏了规律。我的猜想是,现行的续文与原文形式不符,而《红楼梦》全书应有140回而非120回。也有一种108回(或者按照我的理论,应作105回)的说法,留下的情节空间太小;我觉得第105回之后还有许多事情可以发展。在这后七十回中,又应当包含两个阶梯;据现行的续文结构来看,应以宝玉完婚或宁府被抄家为大致的分界;这最后一个阶梯可能像开头那样,有不规则的部分,甚至有可能逆向(上升),基调或许和现在的“悲剧”结尾不甚相同。需要注意的是,这仅仅是一个大胆的猜测,目前并没有其他证据支持。
2021年四月
注释
[1] 《追忆似水年华》序,施康强译,译林出版社《追忆似水年华》第一卷,2012年第一版pp.1-16。
[2] 最富盛名的民间研究见于https://zhuanlan.zhihu.com/p/29209681《用 Python 分析〈红楼梦〉》;相关的学术论文为数不少,可自行查询,这里不一一列举。
© 本文版权归 emfrosztovis 所有,任何形式转载请联系作者。
© 了解版权计划
-
emfrosztovis 转发了这篇日记 2023-05-01 11:38:01
emfrosztovis的最新日记 · · · · · · ( 全部 )
- deepseek疑似模仿刘皓明 (7人喜欢)
- 2024日记选 (95人喜欢)
- 补语结构中的“的”的一种新语义( (12人喜欢)
- 分析哲学概论笔记整理 (84人喜欢)
- 关于朗读和歌唱的几个片段 (28人喜欢)
热门话题 · · · · · · ( 去话题广场 )
-
加载中...