百科问答小站 logo
百科问答小站 font logo



请问为什么说高鹗不是红楼梦后四十回的作者,是通过计算机语言学分析出来的吗,可是没有语料怎么分析? 第1页

  

user avatar   s.invalid 网友的相关建议: 
      

红楼梦最开始是以手抄本的形式流传的;后来被高鹗程伟元结集出版,也就是程甲本和程乙本。

两人在序中声称后四十回是自己“搜罗而来”,他们仅仅“细加釐剔,截长补短,抄成全部”而已。

但实质上,他们的前八十回也多有篡改,把批判世态炎凉、时艺八股的文字去掉,添加了一些鼓吹“仕途经济”文字;加上后四十回无论文笔水平还是眼界旨趣都和前八十回相去甚远、且后四十回不见其它途径流传,因此一贯被认为是两人自行编篡添加的。


红楼梦的不同版本可分为两大系统。除了程高本系统外就是脂砚斋批本这个系统。

脂本系统主要靠手抄流传,但只有前80回,且不同版本还各有缺漏;其中文字多可相互印证,可据此找出程高对前80回的篡改之处。


当然,如果你一定要扣字眼的话,根据原著序,红楼梦并不是人写的。它是一块无才补天的大石头上莫名多出来的一堆文字;这堆文字先由空空道人抄下,叫做《石头记》;之后空空道人大彻大悟,改名“情僧”,因此又叫《情僧录》;最后才被曹雪芹批阅修改,改名《红楼梦》——这是钦定的结论,不用争论了。


至于计算机嘛……

别听外行瞎扯淡,事情是这样的:因为无论文字精炼程度、情节合理性还是诗词数量和水平,前八十回都和后四十回格格不入;因此后四十回是伪作早成定论

然后呢,就好像我当年摘抄红楼梦诗词,发现前80回和后40回诗词的数量和水平对比鲜明一样,有人就想了:如果我们数一数不同章节用到的不同词汇和出现率,是不是能发现点什么呢?


这来自一个小小的常识:比如说吧,语气助词,有人喜欢“卧槽”,有人喜欢“啊”,还有人喜欢“矣焉哉”;语气停顿,有人“这个”有人“那个”有人“嗯”“啊”“是吧”;书中角色说话,有人“说”有人“道”有人“曰”……

总之,这类词选择很多,但每个人都有自己的习惯,会大量使用其中一两种,且没有特殊情况不会更换——比如你习惯了说“那个那个,那个啥呀……啊,键盘……马童,抬我键盘来,待我与他大战三百回合”,就不太可能突然改成“嗯……这个……嗯……啊,对,键盘!”。

除非你在美国说“那个”被黑人见一次打一次、两年打五十次硬生生打改了——或发生了其他使你不得不回头修改潜意识的事——不然你的口头禅就不会变,对吧。


因此,统计这类词的出现频率,是可以发现很多有趣的东西的——刑侦上也经常用到这个技术。


但人工一个个数实在太累太容易出错了——而且文艺工作者说了,一眼看出来的事哪需要像你们这些理工棒槌一样傻直了硬上啊……


现在有了计算机,统计这类东西就可以让程序代劳了。

结果嘛,一数,事实就如同秃子头上的虱子:用机器学习判定红楼梦后40回是否曹雪芹所写 - 知乎 (zhihu.com)

有人可能会说,这可能仅仅是情节发展带来的自然转化……没关系,前面引文的作者又把《三国演义》喂给了程序……

结果嘛,秃子头上还打了蜡。

看着这个结果,再敢说“后四十回和前八十回是一个人写的”,不是脸大就是……




  

相关话题

  《红楼梦》究竟要看哪一个版本,哪一个才是原版,搞不清楚了? 
  为什么赵姨娘对王夫人没有那么痛恨? 
  红楼梦的《好了歌》劝人放弃功名利禄,秦钟临死前又劝贾宝玉考功名。红楼梦到底是劝人放弃功名还是考取功名? 
  贾宝玉到底是不是女娲补天的石头啊? 
  为何晴雯死之前叫了一夜娘而未叫宝玉? 
  想知道四大名著原著哪个版本最好? (ps:学生,最好是有注释或名家批注的 删减较少的版本)? 
  尤二姐跟了贾琏之后为什么性情大变? 
  平心而论红楼梦是不是被严重高估了? 
  如果金钏儿劝宝玉好好读书,还会被撵走吗? 
  《红楼梦》里的贾府是贵妃的娘家,太监为何敢来勒索? 

前一个讨论
Office 中为何还要保留 Access 数据库?
下一个讨论
有哪些值得推荐的头戴式蓝牙耳机?





© 2024-12-22 - tinynew.org. All Rights Reserved.
© 2024-12-22 - tinynew.org. 保留所有权利