统计学告诉你,哪位作家废话多

真要说起来我的中文文学启蒙应该是郭敬明,在他之前我只爱看哈利波特和鸡皮疙瘩系列丛书。张之路系列的书也一一看完了,但哪里有那些年用零花钱买过的最小说多。也因此激发了写作(说写作就太不要脸了,那个时候主要是写博客)的兴趣,倒还真是因为郭敬明。
文字风格这个东西说起来虚无缥缈,不只是遣词造句,思考的方式,写作时心中是否真诚……
冯唐总说“文学里有一条金线”,金线到底长什么样,无法与外人说。
喜欢一个人的作品,就会想去了解那个人。将统计学应用于文学,大数据也许能看见写作者身上我们感性不到的那一面。从遣词造句中判断,固然太过片面,倒也不妨图个新鲜,看看你感受过的那位作者和机器算出来的是否一样。
📕📘📗
美国记者Ben Blatt新作「Nabokov’s Favourite Word Is Mauve: What the Numbers Reveal About the Classics, Bestsellers, and Our Own Writing」便是一本文学统计大全,收集了不少数据分析作家们的写作偏好:作家最爱用哪些字?谁的废话最多?最常用副词和感叹号的又是谁?

如何实现数据的收集和分析?拿作家最爱用字举例。
在统计学家的指导下,他们设计出一套电脑程式,爬梳上千本经典名作,归纳出每位作家最常用的僻字。
他们发现「洛丽塔」的作者,俄裔美国作家纳博科夫最爱用「木槿紫」(mauve)一字。纳博科夫的多本小说用「mauve」一字达44次之多,纳博科夫使用颜色字眼的次数比一般作家多出四倍。
之所以对颜色字眼情有独钟,也许是他因为善于使用「通感」。当接触某些字眼或声音时,他却能直接「看见」特定颜色。
Ben Blatt借用从1810年到2009年间共385万字英文文库,设下5项判别标准,比较得出作家最爱用语。
1.必须比一般作者更频繁地使用;
2.必须出现于过半数作品;
3.比率以每十万字计;
4.字眼不可过分冷僻;
5.不属专有名词。
从结果看,最爱字眼的确透露出作家们某些用字偏好或故事情节。

不要以为作家就不说废话,即使是再兢兢业业笔耕不挫的作家也难免于陈词滥调。Ben Blatt借2013年版「陈词滥调字典」(Dictionary of Clichés),整理了各作家陈腐字句的使用频率。
「最俗套作家」估计要颁给,「桃色追捕令」的作者,畅销(销量为斯蒂芬金和丹布朗总和)悬疑惊悚小说家,同时也是全球收入最高的作家:詹姆斯·帕特森。平均每十万字就使用160次cliche,特别是「信不信由你」(believe it or not),出现在其过半数作品之中。

其中还值得一提的是,「废话最多」的头五位作家均是男性,包括写下「五号屠场」,美国当代最有影响力的后现代主义作家之一冯内古特、「魔鬼诗篇」作者鲁西迪和「搏击俱乐部」作者帕拉尼克。
而末五位则全是女性,女性主义先锋「奥兰多」的作者伍尔芙、「纯真年代」作者伊迪丝·华顿还有大名鼎鼎的简奥斯汀。
这样看来,似乎女作家的用字更为斟酌。

书中还考据了作家使用副词和感叹号的频率。

一向以行文简练著称的海明威最少使用副词,平均每一万字出现80次;反而在自己书中「写作这件事」反复强调自己讨厌副词的斯蒂芬金还不及喜欢过度修饰的厄普代克节制,前者每万字用105次,稍高于后者。
至于感叹号,写出「尤利西斯」的爱尔兰大师乔伊斯使用的最为慷慨,平均每十万字竟有1105个,每百字一次,几乎可以和特朗普相提并论了。
💻💻💻
当然,从统计学看文学,既无法深入文学本质,方法也有诸多可诟病之处。但提供了一个新的角度审视或补遗,对研究文学的人来说不妨可当成参考工具使用。
当文学也被当成数据分析,处于大数据时代中间,可想未来会有更多同类型的对象会被当成符号比较分析。
不知道爬了385万字的机器是否从中学到任何人类的智慧,文学的珍贵始终来自于读者阅读时的亲身感悟,再精准详实的数据研究也不能取代阅读本身。

KEEP READINGANDCARRY ON
