红楼梦最开始是以手抄本的形式流传的;后来被高鹗程伟元结集出版,也就是程甲本和程乙本。
两人在序中声称后四十回是自己“搜罗而来”,他们仅仅“细加釐剔,截长补短,抄成全部”而已。
但实质上,他们的前八十回也多有篡改,把批判世态炎凉、时艺八股的文字去掉,添加了一些鼓吹“仕途经济”文字;加上后四十回无论文笔水平还是眼界旨趣都和前八十回相去甚远、且后四十回不见其它途径流传,因此一贯被认为是两人自行编篡添加的。
红楼梦的不同版本可分为两大系统。除了程高本系统外就是脂砚斋批本这个系统。
脂本系统主要靠手抄流传,但只有前80回,且不同版本还各有缺漏;其中文字多可相互印证,可据此找出程高对前80回的篡改之处。
当然,如果你一定要扣字眼的话,根据原著序,红楼梦并不是人写的。它是一块无才补天的大石头上莫名多出来的一堆文字;这堆文字先由空空道人抄下,叫做《石头记》;之后空空道人大彻大悟,改名“情僧”,因此又叫《情僧录》;最后才被曹雪芹批阅修改,改名《红楼梦》——这是钦定的结论,不用争论了。
至于计算机嘛……
别听外行瞎扯淡,事情是这样的:因为无论文字精炼程度、情节合理性还是诗词数量和水平,前八十回都和后四十回格格不入;因此后四十回是伪作早成定论。
然后呢,就好像我当年摘抄红楼梦诗词,发现前80回和后40回诗词的数量和水平对比鲜明一样,有人就想了:如果我们数一数不同章节用到的不同词汇和出现率,是不是能发现点什么呢?
这来自一个小小的常识:比如说吧,语气助词,有人喜欢“卧槽”,有人喜欢“啊”,还有人喜欢“矣焉哉”;语气停顿,有人“这个”有人“那个”有人“嗯”“啊”“是吧”;书中角色说话,有人“说”有人“道”有人“曰”……
总之,这类词选择很多,但每个人都有自己的习惯,会大量使用其中一两种,且没有特殊情况不会更换——比如你习惯了说“那个那个,那个啥呀……啊,键盘……马童,抬我键盘来,待我与他大战三百回合”,就不太可能突然改成“嗯……这个……嗯……啊,对,键盘!”。
除非你在美国说“那个”被黑人见一次打一次、两年打五十次硬生生打改了——或发生了其他使你不得不回头修改潜意识的事——不然你的口头禅就不会变,对吧。
因此,统计这类词的出现频率,是可以发现很多有趣的东西的——刑侦上也经常用到这个技术。
但人工一个个数实在太累太容易出错了——而且文艺工作者说了,一眼看出来的事哪需要像你们这些理工棒槌一样傻直了硬上啊……
现在有了计算机,统计这类东西就可以让程序代劳了。
结果嘛,一数,事实就如同秃子头上的虱子:用机器学习判定红楼梦后40回是否曹雪芹所写 - 知乎 (zhihu.com)
有人可能会说,这可能仅仅是情节发展带来的自然转化……没关系,前面引文的作者又把《三国演义》喂给了程序……
结果嘛,秃子头上还打了蜡。
看着这个结果,再敢说“后四十回和前八十回是一个人写的”,不是脸大就是……