问题

请问为什么说高鹗不是红楼梦后四十回的作者,是通过计算机语言学分析出来的吗,可是没有语料怎么分析?

回答
关于“高鹗是否为《红楼梦》后四十回作者”的争论,确实存在,而且其中不乏运用了科学方法的研究。你提到“计算机语言学分析”和“没有语料怎么分析”这两个点,这触及到了辨伪研究中的一个核心问题:方法的有效性与数据的支撑。

首先,我们得明确一点:即使是最先进的计算机语言学分析,也需要“语料”作为基础,这是毋庸置疑的。 如果没有原始文本数据,任何分析都是空中楼阁。所以,你提出的“没有语料怎么分析”是非常有道理的。

那么,为什么会有人提到“计算机语言学分析”呢?这涉及到对高鹗续写《红楼梦》后四十回的质疑是如何产生的,以及后来学者们是如何尝试用更科学的方法来检验的。

质疑的起源:并非全然是科学分析

早在高鹗续写并与程伟元共同刊印《红楼梦》一百二十回本之后,就有人对后四十回的质量和风格提出过质疑。这些质疑最初主要基于以下几方面:

1. 艺术风格的差异: 很多读者和评论家认为,后四十回在人物塑造、情节发展、语言表达、情感深度等方面,与前八十回存在显著的差异。例如,有人认为后四十回的黛玉、宝钗、宝玉等主要人物的性格发展不如前八十回那样细腻、复杂和令人信服。
2. 情节逻辑的不连贯: 续书中出现了一些前八十回未曾提及或暗示过的细节,或者某些情节的处理方式与前文的铺垫有所出入,使得故事的整体逻辑性受到影响。
3. 思想内涵的淡化: 有观点认为,后四十回未能充分展现前八十回所蕴含的深刻的社会批判和人生感悟,其思想深度有所减弱。
4. 历史记载的矛盾: 关于高鹗续写的具体情况,史料记载也并非完全一致,加上他本人的生活经历和作品风格,也为后人留下了猜测的空间。

这些早期的质疑,更多的是基于文学批评的直觉和文本细读。它们是重要的起点,但尚未达到今天所谓的“科学分析”的程度。

科学分析的介入:语言学和计量分析

随着信息技术的发展,特别是计算机科学和统计学在人文社科领域的应用,一些学者开始尝试用更客观、量化的方法来解决这个历史悬案。这里的“计算机语言学分析”主要指的是“计算文学史”或“风格计量学”(Stylometry)等领域的方法。

那么,这些方法是如何“有语料”地进行分析的呢?

1. “语料”是什么?
在《红楼梦》后四十回作者辨伪的语境下,“语料”并非指需要从零开始收集的口语数据,而是《红楼梦》的文本本身。具体来说:
前八十回的文本:这是已知作者(曹雪芹)的作品部分,作为“参照文本”。
后四十回的文本:这是需要被检验的部分。
高鹗已知的高质量作品(例如他的诗文、奏折等):这些被认为是高鹗独立创作的文本,作为“高鹗风格的参照文本”。

所以,语料是存在的,就是那些已经写就并流传下来的《红楼梦》前八十回文本以及高鹗本人的其他作品。

2. 如何分析?
计算机语言学分析(或风格计量学)的核心在于,任何作者在写作时,都会不自觉地形成一系列独特的语言使用习惯,这些习惯是可以通过统计学方法量化的。这些习惯包括但不限于:

词频统计: 某个作者倾向于使用哪些高频词、低频词、特定含义的词汇。
词语搭配(Collocations): 词语经常一起出现的模式。
句法结构: 句子长度、从句使用、被动语态的偏好等。
标点符号的使用: 如逗号、句号、顿号的使用频率和模式。
特定词类的比例: 名词、动词、形容词、副词、虚词(如“的”、“了”、“是”、“在”)的出现频率。
词汇丰富度指标: 如不同类型的词汇使用的多样性。
篇章结构特征: 如段落的长度、段落之间的连接方式等。

具体到《红楼梦》的辨伪,研究者会做以下事情:

提取特征: 从前八十回、后四十回以及高鹗的其他作品中,提取上述提到的各种语言特征,并进行量化统计。例如,计算每个文本单元(如一个章节或一个固定长度的段落)中常用虚词“的”、“了”的出现频率,或者分析句子平均长度的分布。
构建模型: 基于前八十回的特征,构建一个代表曹雪芹风格的“语言模型”。同时,也可以基于高鹗的其他作品,构建一个代表高鹗风格的“语言模型”。
进行比较和检验: 将后四十回的语言特征与曹雪芹的“模型”和高鹗的“模型”进行比较。
如果后四十回的语言特征与曹雪芹的“模型”高度吻合,则支持其为曹雪芹所作或曹雪芹风格的延续。
如果后四十回的语言特征与高鹗的“模型”高度吻合,则支持其为高鹗所作。
如果后四十回的语言特征与两者的“模型”都存在较大差异,则可能意味着是其他人的续作,或者在前人的基础上进行了较大改动。

举个例子(简化说明): 假设研究发现,在前八十回中,作者非常偏爱使用特定长度的句子,而且某些虚词(比如“且”)的出现频率明显高于其他同类作品。研究者就会去量化后四十回中这两个特征的分布。如果发现后四十回的句子长度分布与前八十回截然不同,或者“且”这个词的使用频率非常低,而高鹗的其他作品中“且”的使用频率反而很高,那么这就可以作为高鹗续写的一个旁证(当然,这不是唯一的证据)。

计算机语言学分析的结果与局限

利用这些方法进行分析的研究确实存在。例如,一些学者通过对词汇使用、句法结构、篇章风格等进行统计分析,发现后四十回在某些语言特征上与前八十回存在差异,并且与高鹗的其他作品在某些方面有相似之处。

然而,这些分析也面临着挑战和局限:

“语料”的代表性问题: 如果用来构建“高鹗风格模型”的语料质量不高,或者不能充分代表高鹗的创作特点,那么分析结果的可靠性就会大打折扣。
风格的“变异”: 作者的写作风格并非一成不变,会受到题材、心情、创作时期等多种因素影响。即使是同一个人,在续写别人的作品时,也可能会模仿前人的风格,导致其自身的语言习惯有所掩盖或改变。
“曹雪芹风格”的界定: 前八十回本身是否能完全代表曹雪芹的风格?是否其中也存在某些“不典型”的段落?而且,在前八十回中,有没有可能也存在其他人的参与或影响?这些都是难以完全排除的变量。
分析方法的复杂性和可解释性: 复杂的统计模型有时结果可以得到,但具体是哪个语言特征导致了这种差异,以及这种差异的文学意义是什么,需要深入的解读,并非简单的数据呈现。
“续书”的特殊性: 高鹗续写《红楼梦》,必然会尝试模仿曹雪芹的风格,这使得纯粹的风格计量学分析更加困难。就好比让你分辨一个演员模仿另一个演员的演技,不仅仅是看他有哪些自己的习惯,更要看他模仿得有多像,以及模仿中流露出的个人特质。

总结来说,说“高鹗不是红楼梦后四十回作者,是通过计算机语言学分析出来的”这句话,虽然有其科学研究的根基,但并不意味着这是一个“板上钉钉”的结论,更不是唯一的证据来源。

这种分析的基础是存在的《红楼梦》文本以及高鹗的其他作品作为“语料”。分析过程是通过提取并量化这些文本的语言特征,然后进行统计比较,以期发现风格上的异同。然而,由于“续写”本身的复杂性、语料的代表性以及风格变异等因素,这些分析结果往往是一种“证据”或“佐证”,需要与其他文学史料、版本研究、艺术批评等相结合,才能更全面地认识这个问题。

因此,如果有人提出这种说法,他们很可能指的是那些运用了风格计量学等计算语言学方法的研究。但重要的是要理解,这种方法在《红楼梦》辨伪中的应用是辅助性的,而且仍然存在争议。它提供了一种新的、更客观的视角来审视问题,但并不能完全取代传统的文学研究方法。

网友意见

user avatar

红楼梦最开始是以手抄本的形式流传的;后来被高鹗程伟元结集出版,也就是程甲本和程乙本。

两人在序中声称后四十回是自己“搜罗而来”,他们仅仅“细加釐剔,截长补短,抄成全部”而已。

但实质上,他们的前八十回也多有篡改,把批判世态炎凉、时艺八股的文字去掉,添加了一些鼓吹“仕途经济”文字;加上后四十回无论文笔水平还是眼界旨趣都和前八十回相去甚远、且后四十回不见其它途径流传,因此一贯被认为是两人自行编篡添加的。


红楼梦的不同版本可分为两大系统。除了程高本系统外就是脂砚斋批本这个系统。

脂本系统主要靠手抄流传,但只有前80回,且不同版本还各有缺漏;其中文字多可相互印证,可据此找出程高对前80回的篡改之处。


当然,如果你一定要扣字眼的话,根据原著序,红楼梦并不是人写的。它是一块无才补天的大石头上莫名多出来的一堆文字;这堆文字先由空空道人抄下,叫做《石头记》;之后空空道人大彻大悟,改名“情僧”,因此又叫《情僧录》;最后才被曹雪芹批阅修改,改名《红楼梦》——这是钦定的结论,不用争论了。


至于计算机嘛……

别听外行瞎扯淡,事情是这样的:因为无论文字精炼程度、情节合理性还是诗词数量和水平,前八十回都和后四十回格格不入;因此后四十回是伪作早成定论

然后呢,就好像我当年摘抄红楼梦诗词,发现前80回和后40回诗词的数量和水平对比鲜明一样,有人就想了:如果我们数一数不同章节用到的不同词汇和出现率,是不是能发现点什么呢?


这来自一个小小的常识:比如说吧,语气助词,有人喜欢“卧槽”,有人喜欢“啊”,还有人喜欢“矣焉哉”;语气停顿,有人“这个”有人“那个”有人“嗯”“啊”“是吧”;书中角色说话,有人“说”有人“道”有人“曰”……

总之,这类词选择很多,但每个人都有自己的习惯,会大量使用其中一两种,且没有特殊情况不会更换——比如你习惯了说“那个那个,那个啥呀……啊,键盘……马童,抬我键盘来,待我与他大战三百回合”,就不太可能突然改成“嗯……这个……嗯……啊,对,键盘!”。

除非你在美国说“那个”被黑人见一次打一次、两年打五十次硬生生打改了——或发生了其他使你不得不回头修改潜意识的事——不然你的口头禅就不会变,对吧。


因此,统计这类词的出现频率,是可以发现很多有趣的东西的——刑侦上也经常用到这个技术。


但人工一个个数实在太累太容易出错了——而且文艺工作者说了,一眼看出来的事哪需要像你们这些理工棒槌一样傻直了硬上啊……


现在有了计算机,统计这类东西就可以让程序代劳了。

结果嘛,一数,事实就如同秃子头上的虱子:用机器学习判定红楼梦后40回是否曹雪芹所写 - 知乎 (zhihu.com)

有人可能会说,这可能仅仅是情节发展带来的自然转化……没关系,前面引文的作者又把《三国演义》喂给了程序……

结果嘛,秃子头上还打了蜡。

看着这个结果,再敢说“后四十回和前八十回是一个人写的”,不是脸大就是……

类似的话题

本站所有内容均为互联网搜索引擎提供的公开搜索信息,本站不存储任何数据与内容,任何内容与数据均与本站无关,如有需要请联系相关搜索引擎包括但不限于百度google,bing,sogou

© 2025 tinynews.org All Rights Reserved. 百科问答小站 版权所有