背景介绍:生活的真谛是什么?是从每个人自己不同爱好、不同擅长、不同的品味中,感受对于生活的独特理解和个性化发现。所谓赌徒的生活的真谛就是下注时的快感;作家的生活的真谛就是用文学作品解剖生活;数学家生活的真谛就是探索和欣赏数学里的奥秘;舞女的生活真谛就是在灯红酒绿中体会人性的另一面;万法归宗呀,芸芸众生只有看问题的角度不同,没有绝对的对错和高低。就象本文即将分享的一个用数据分析方法部分解密《红楼梦》的前后作者一样,《红楼梦》后40回作者到
底是曹雪芹还是另有其人?这个论题作为红学研究最热烈的话题当然并不是完全可以用纯粹的数学推理来解决的,但是这里分享的数学分析方法和思路,却是实实在在可以让有缘之人当作休闲的小食,不求充饥,但求有趣,从不同的角度和不同的视线观察生活,就是人生的好享受。2007年10月10日南京“现代快报”报道,南京林业大学汤庚国教授另辟鼷径,从海棠文化出发,分析《红楼梦》前80回与后40回的差异。汤教授主要从人文花卉方面进行分析,发现《红楼梦》前80回有16回涉及海棠,而后40回只有4回涉及海棠,以此说明前后差距明显。受汤教授的启发,东南大学数学系的韦博成先生(博导)从数学统计的专业角度对汤先生的发现进行数学证明,通过两个独立二项总体等价性检验,经过渐近正态公式计算,有92%的把握认为“前80回对于海棠花的关注程度大于后40回对于海棠花的关注程度”。根据该统计方法,韦博成先生再接再厉,对于《红楼梦》中的若干重要的情景描述进行量化,得到相应的数据集。有了数据集就可以进行数理统计分析,比较前80回与后40回在文风上的差异,结果表明,《红楼梦》前80回与后40回在某些重要的情景描述上确实有非常显著的差异。研究者韦博成先生再三再四强调,他只是从数据分析的角度指出两者的差异,尚不能说明《红楼梦》前80回与后40回作者的不同,因为“这涉及到许多人文与社会方面的问题,这是数理统计方法所无能为力的。”
本数据分析的目的:用数理统计的方法(具体来说是两个独立二项总体等价性检验)来分析《红楼梦》前80回与后40回在几个重要的情景指标(包括饮食描写、医药描写、诗词描写、花卉描写、树木描写,这里“描写”主要指出现的频率)的差异,并据此反映的文风来判断《红楼梦》前后两大部分的差异的显著性。至于这种显著性是否能推导出作者的不同,并不是本研究的目的,说白了,本数据分析研究只是数学爱好者借助自己对数学的爱好,表达对生活的有趣看法,娱自己娱他人,仅此而已,读者不应求全责备!
本数据分析的数据准备:研究时收集的各个情景指标的数据,所采用的《红楼梦》书稿来自北极星书库,研究者将十回放一个文件,共生成12个word文件。对于书稿中有关花卉、树木、饮食、医药、诗词等方面的内容,采用人工查阅与关键词搜索相结合的方法,以人工查阅为主,最后列表给出每一回涉及的上述五个指标的出现频数。另外,本研究特别注意“伪数据”的删除。比如统计作者对于花卉的描述频数,但是书中也有一些“伪数据”(虽然也是花卉,但是与情景无关,比如梅花糕、桃花庙、海棠红的棉袄等等,这些所谓的花卉并不是本研究所要记录的,所以是“伪数据”,这些数据是不计入本研究统计资料的。
分析思路:在《红楼梦》中,对于许多情景都是有非常深入的刻画和描写的,比如饮食描写,全书有40余回涉及到饮食文化的方方面面。本研究不考虑人文社会方面的问题,致力于数据分析统计,应用数理统计方法研究前80回和后40回的文风上的差异。以饮食为例,《红楼梦》前80回有34回涉及饮食方面的描写,后40回有8回涉及饮食描写,根据这个数据,作者考虑以下等价性假设检验问题。原假设H0:“前80回与后40回对于饮食描写的关注程度相同。”; 对立假设H1:“前80回对于饮食描写的关注程度大于后40回对饮食描写的关注程度。” 通过Fisher精确条件检验或者渐进正态检验,可以发现上述哪个假设更加有理由有把握是真的。
分析的结论:研究表明,饮食和花卉的显著性最高,即有充分的理由(99%)认为,前80回与后40回在饮食与花卉的描述上有明显的差异,其判错的概率不到1%;对于医药、树木、这两个指标,有90%的把握认为,前80回与后40回在这些指标的描述上是有差异的;不过,对于诗词的描述,并没有充分的理由发现前80回与后40回的差异。
[数据挖掘分析《红楼梦》]