用数据说话,从统计学看红楼梦作者之谜

“满纸荒唐言,一把辛酸泪。都云作者痴,谁解其中味?”

——曹雪芹中国的四大名著,红楼梦有非常特别的位置。小时候喜欢《西游记》,觉得魑魅魍魉,何其神幻;再者喜欢《水浒传》,梁山好汉,快意江湖。但读的最多的却是红楼梦。中国有句古话说,少不读红楼,老不读三国。少时读红楼,觉得晦涩难懂;年纪大些再读,仍觉得扑朔迷离,意味无穷。红楼梦是一本包罗万象的小说,纵横诗书、绘画、音乐、饮食、服饰等多个领域,其文学价值不言而喻。

红楼梦共120章回,前80回比较公认的作者是曹雪芹。他自述“批阅十载,增删五次”,方成此书。这跟他人生经历不无相关。在康熙、雍正两朝,曹家历任江宁织造,极盛时期甚至接待过圣驾南巡。胡适先生考证,曹雪芹早年在南京江宁织造府亲历了一段锦衣纨绔、富贵风流的生活。至雍正六年,曹家因亏空获罪被抄家,曹雪芹随家人迁回北京老宅。后又移居北京西郊,靠卖字画和朋友救济为生。“满径蓬蒿”、“举家食粥酒常赊”正是描述他那时的窘境。有学者认为,红楼梦整个故事的发展,正是曹雪芹家族的镜像。

红楼梦后40回原作散失,至今作者归属仍是谜团,各学派争论不一。1920年,胡适先生“大胆假设”,认为后四十回并非曹雪芹所著,而是高鹗续书。周汝昌认为《红楼梦》共108回,现存80回,后28回遗失。白先勇认为,没有人能续作红楼梦,后四十回中作者笔触细腻,前后呼应,一百二十回应全系曹雪芹所做。关于续作的文学价值,红楼梦“发烧友”张爱玲并不以为然。她认为后十回乃是“狗尾续貂,附骨之蛆”。读到第81回“占旺相四美钓游鱼”时,便觉“天日无光,百般无味”,仿佛进入了“另一个世界”。

众多大家各执一词,学术界仍无定论。今天,我们不妨再读石头记,班门弄斧,从统计学角度给出一点佐证。

用数据说话,从统计学看红楼梦作者之谜

曹雪芹画像,宋忠元绘

用数据说话,从统计学看红楼梦作者之谜

从前80回到后40回:红楼一梦,大厦倾颓

想要了解红楼梦作者,需先了解红楼梦。红楼梦讲述贾、史、王、薛四大家族的兴衰,贯穿贾宝玉、林黛玉、薛宝钗的爱情婚姻主线。“贾不假,白玉为堂金作马;阿房宫,三千里,住不下金陵一个史;东海缺少百玉床,龙王请来金陵王;丰年好大雪,珍珠如土金如铁”正是对四大家族极盛时期的判词写照。从红楼梦前八十回到四十回,发生了什么?简而言之,从前80到后40,是四大家族“大厦倾颓”,贾宝玉和林黛玉爱情悲剧的重要过渡

用数据说话,从统计学看红楼梦作者之谜

我们先来看看故事的主人翁。初读红楼梦,最艰难的是缕清人物关系。红楼梦中眼花缭乱的宗亲关系,常常让人置身云雾。这里我们抽丝剥茧,只提取前十大出场人物和他们的出场比例,如下图所示。贾宝玉出场的比例最高,着墨最多。令人有点意外的是出场其次的并不是钗黛,而是贾府的封建家长代表,贾母和凤姐。贾母在书中有非常重要的地位,她是贾府内部最高权力的代表。这位老人不仅懂得享受荣华,而且当贾府倾頽之时,她拿出家财赈济众人,也是有条不紊,从容镇定。凤姐可以算是贾府的“执行董事”,明是一盆火,暗是一把刀。她执掌贾府实权,但为人心狠手辣,最终机关算尽,终免不了含愧而死。

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

除了前三个代表人物,读者最为关注的是贾宝玉、林黛玉、薛宝钗之间的爱情婚姻悲剧。从前80回到后40回,三人发生了什么样的故事?我们不妨来看看三人的出场密度统计。可以看出前40回中宝玉、黛玉的步调更为一致,此时黛玉刚刚来到贾府,与宝玉两小无猜;中期三位人物描写都有所减少,此时注重于贾府整体宏观刻画;在后80回中,三者出场再次推向高峰。其中关于黛玉的描写,在100回左右已经淡出观众视线。此时最大的情节变化是“林黛玉焚稿断痴情”,这是悲剧发生的时刻。黛玉听到远处传来的娶亲喜乐,内心充满孤独哀伤,也了却了在人世的最后一点俗缘。这一段的描写是很动人的,她焚的是诗稿,也是自己的诗魂。关于薛宝钗的描述在100回之后出现高峰,此时她已“出闺成大礼”,成为贾府权利代表认可的儿媳,未来等待她的整个家族的重担。值得注意的是这里钗黛之争并没有发生明显的正面冲突,这与凤姐瞒天过海的计策相关,整个婚姻事实是经过贾府高层操控的,这也是悲剧的源头。

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

接下来,我们再来看看,从前80回到后40回,人物关系发生了怎样转变?将人物共同处于一个自然段看做网络连接1次,我们可以绘制1-40回;40-80回;80-120回人物之间的“社交网络”(线条越粗,关系越强)。很明显能够看出,主要人物关系逐步加强,在第三部分推向高潮。此时写四大家族“忽喇喇似大厦倾颓”,一时间众人相互牵连,无一幸免。再回首曾盛极一时的大观园,不禁让人嗟叹。

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

最后,我们再来看看红楼梦中的小人物。红楼梦是一个群像小说。除了主角之外,作者对于小人物的刻画十分传神。比如焦大,他是贾府老仆,全书只在开头和结尾处出现。但作者借他的醉骂,已经道出贾府颓势:曾经烜赫一时,如今子孙不肖。除此之外,令人印象深刻的刘姥姥进大观园,也是神来之笔。曹雪芹写富贵人物如贾母能够写出风流的贵族做派,写村妇形象竟也是入木三分。借着刘姥姥进大观园的视线,读者体会出大观园盛时何其富丽堂皇。当贾府败时,刘姥姥再次出现,救下巧姐。从80回过后,作者对于小人物刻画也十分传神,这与之前我们的结论一致,后40回作者主要处理贾府内部主要人物之间的矛盾。

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

咬文嚼字,《石头记》作者系谁?

1从统计检验看《红楼梦》作者归属从上面的分析已经可以看出,红楼梦前后情节出现了很大变化,后40回作者更加关注主要人物之间矛盾的处理,减弱了对边线人物的描写。接下来,我们不妨“咬文嚼字”,看看作者在用语习惯上是否前后一致。

统计学上,判断作者前后用语是否一致,我们自然与【统计检验】联系在了一起。这里,将整体分为:1~40回,41~80回,81~120回作对比。前两个总体的对比将作为参照;重点对比后两个总体之间的差异。我们将一个章节的词频作为一个观测,使用t检验检验不同总体之间词频均值的差异(注:这里我们要求这些词不能在3个总体的词频都<30)。注意,在判断显著性时,我们不再以p值小于0.05为标准。这是由于此处涉及“多重检验”的问题。简而言之,如果涉及许多组假设检验,设置显著性水平为0.05是不尽合理的。此处我们采取Bonferroni修正,将p值根据总的检验组数进行调整。由于本案例总共涉及几十组检验,采取谨慎性原则,我们标注了p值<0.001的词汇。更多关于多重检验的科普和实施请见【多重检验小课堂】;对多重检验感兴趣的读者也可以了解一下专用于多重检验的FDR方法,此处我们不再赘述。

多重检验(Multiple Testing)小课堂我们举个例子,来说明在检验组特别多的时候为何需要多重检验。假设有K = 20个重点词,那将对应K组t检验。如果我们仍设置显著性水平: 用数据说话,从统计学看红楼梦作者之谜 ,则得到至少一组检验显著的概率为:

用数据说话,从统计学看红楼梦作者之谜

这说明一个问题:只要你坚持不懈的检验下去,总能得到显著结果!但是,天上没有掉馅儿饼的事。一般来说,可以采取Bonferroni修正:当有K组t检验时,建议设置显著性水平:用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

我们看看具体结果,首先我们关注【高频词汇】。经过统计检验,红楼梦前后用词出现较大断层的高频词集中于形容词、副词方面(在动词、介词、连词等方面差异不大,此处不再列出细节结果)。几个频率显著减小的词包括:越发、难道、可巧、不曾、原是。

①越发:

  • 众人越发慌了。(第25回)
  • 那袭人、麝月等一发慌了,回过凤姐几次。(第95回)

②难道:

  • 黛玉笑道:“你说你会过目成诵,难道我就不能一目十行么?”(第23回)
  • 雨村低了半日头,忽然笑道:“莫非他有遗腹之子,可以飞黄腾达的么?”(第120回)

③可巧:

  • 可巧宝玉往黛玉那里去了。(第60回)
  • 恰好王夫人打发周瑞家的照看(第103回)

④不曾:

  • 黛玉道:“不曾读书,只上了一年学,些须认得几个字。”(第3回)
  • 贾母道:“我活了八十多岁,自作女孩儿起,到你父亲手里,都托着祖宗的福,从没有听见过那些事。”(第106回)

⑤原是:

  • 凤姐儿说道:“大老爷原是好养静的。“(第11回)
  • 袭人道:“二爷的病原来是常有的。“(第105回)

用数据说话,从统计学看红楼梦作者之谜

除此之外,我们对文献[1][2]重点词汇进行了统计检验。在名词方面,“丫鬟”出现显著减少;动词方面,“打量”显著增加;副词方面,“越发”显著减少,同义词“更加”显著增加,“刚才”显著增加。值得注意的是虚词中的句尾虚词和文言虚词两个类别出现了显著变化。句尾虚词中,疑问句式结尾的语气词增多,这可能与后40回中对话增加有关;单字文言虚词在后40回大部分显著减少,这说明后期语言向白话靠拢。除以上词汇外,其他词汇并没有在统计意义上得到的显著变化的证据。

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

最后,从文章组织方面,我们对段落长度、标点符号构成进行了统计检验。这里我们发现,后40回段落长度变长,且句号、双引号、问号都显著增多;这与后四十回的人物对话增多有关

用数据说话,从统计学看红楼梦作者之谜

2再论参考系:以《倚天屠龙记》为例我们从统计检验角度谈红楼梦作者归属,不能够没有参考系。在本节开头,我们已经说明,将前40回与41~80回的语言特征连续性作为参考;实际上,从前面的统计检验结果来看,前80回的语言风格相对更加统一。但是似乎这里并不能让我们完全信服,对于一般的章回小说,出现语言风格的波动是不是正常现象呢?由于情节、感情的波动,小说的文字使用出现差异可能并不是一个“奇葩”的现象。

我们不妨看看其他章回小说是咋样的。这里纳入我们之前讨论过的一个章回小说,《倚天屠龙记》作为参考(显然这一部小说没啥作者争议,感兴趣的读者可以自行分析其他章回小说)。同样地,我们对倚天屠龙记划分三个总体,检验在实词、虚词等方面的差异。结果如下表所示,我们并不能找到非常显著的总体之间差异。这说明《倚天屠龙记》这部小说作者在前后用语用词习惯上是相对更加统一的

用数据说话,从统计学看红楼梦作者之谜

用数据说话,从统计学看红楼梦作者之谜

3回归分析:能否“智能”区分前80回与后40回?最后,我们进行了一个“鬼畜”的回归分析。首先将一个章节看成一个观测,前80回所有章节标记成Y=0,后40回标记成Y=1。一个自然的问题是,通过回归分析,能否“智能”区分前后总体?删除一些可能跟情节相关的词,经过变量选择后保留了6个词汇,它们大部分是文言虚词,回归系数如下表所示:

用数据说话,从统计学看红楼梦作者之谜

关于模型的预测性如何呢?我们进行了5折交叉验证,得到预测集平均AUC达到95.4%!这说明通过用语特征能够非常清晰的区分出红楼梦前后的差异

后记红楼梦这部小说可以说包罗万象,从统计学看作者归属只是其中一个方面。红楼梦中有许多语言特征很有意思,它的内容从古至今也多方争议。本文不能一一囊括,在此处备注几点说明:

1、谐音字。前80回中含有大量隐喻,比较著名的是金陵十二钗的判词,其中已经隐含了她们的命运。除此之外,作者在起名上也颇下功夫,比如“甄士隐、贾雨村”,代表“真事隐、假语存”; 元春、迎春、探春、惜春四姐妹,谐音是“原应叹息”;“贾政”谐音“假正经”等等。有学者考证,《红楼梦》前后谐音比例大有不同,且后40回谐音用法生硬。由于此处样本较少,我们没有纳入统计检验的范畴。

2、诗词创作。《红楼梦》诗词是非常重要的组成部分。第三十七回中,红楼梦群钗成立海棠诗社,各取别号,根据诗题作诗。其中以宝钗黛玉诗才最高,曾各得魁首。除此之外,黛玉的《葬花吟》,宝玉的《芙蓉女儿诔》也是非常著名的。细读红楼梦诗词,创作风格与作者性格特征紧密贴合:黛玉的诗作感时伤事,与她寄人篱下的身世相关;宝钗的诗大气沉稳,可以说是“任是无情也动人”。我们统计发现,后40回中诗词比例减少,尤其是诗的创作,更是寥寥无几。这是否可能是续作作者“诗才不足”呢?由于全文诗作非常有限,我们不再做更多技术性探讨;欢迎更多感兴趣的读者跟我们讨论。

3、参考文献【1】【2】中还列了许多词汇,比如常见的儿化音和拟声词。常见的有名词+儿化音(如小幺儿、颦儿);形容词+儿化音(如静静儿,轻轻儿);数词+儿化音(如些儿、点儿)。我们统计发现前80回中更多名词+儿化音;后80回更多动词、形容词、副词+儿化音。拟声词也起到类似作用,使得语言更具备生活化的特点。比如双音节拟声词(嗤嗤、叮当、当当);三音节拟声词(哼哼哼、呼喇喇、豁啷啷);四音节拟声词(咕咚咕咚、哗喇哗喇)。这里我们统计发现后40回更多四音节拟声词;而前80回作者更偏向双音节拟声词。但由于总体出现样本过低,无法从统计检验角度给出更多证据。

4、多重检验。《红楼梦》有数以千计的词语,哪些词语应该纳入检验,似乎是值得讨论的话题。从技术上,本文采用比较保守的Bonferroni修正进行多重检验。另外一种常见的方式是FDR方法,由Benjamini于1995年提出[5],能够在假阳性和假阴性之间取得较好平衡。我们用FDR方法进行p值修正后,得到的结论比较类似。

5、关于最后的回归分析,需要进一步斟酌。我们希望纳入回归分析的词应该与情节尽量无关,而与个人用语习惯相关。但是这似乎不是一个简单的问题,如何通过统计学的方式排除情节的差异而着重于用语习惯的差异是一个有意思的事情。另外,注意到这里以章节为观测,总体样本比较稀少;考虑其他的切分方式,比如按照段落作为观测,预测段落属于前80回还是后40回,则难度将大大增加。

【参考文献】

[1]陈大康.从数理语言学看后四十回的作者——与陈炳藻先生商榷[J].红楼梦学刊,1987(01):293-318.

[2]唐友忠.红楼梦后续作者考释[M].北京:中国文联出版社,2014.

[3]白先勇.白先勇细说红楼梦[M].广西:广西师范大学出版社,2017.

[4]张爱玲.红楼梦魇[M].北京:北京十月文艺出版社,2012.

[5]https://en.wikipedia.org/wiki/False_discovery_rate

注:本文图片除曹雪芹画像外来自于87版《红楼梦》剧照

本文由 狗熊会 投稿至 数据分析网 并经编辑发表,内容观点不代表本站立场,如转载请联系原作者,本文链接:https://www.afenxi.com/56377.html 。

(10)
狗熊会的头像狗熊会专栏
上一篇 2018-06-24 23:21
下一篇 2018-06-26 14:26

相关文章

关注我们
关注我们
分享本页
返回顶部