阅读历史 |

第65章 用科学方法解读红楼梦(2 / 2)

加入书签

……

【从部分高频词汇角度分析,前八十回和后四十回词频有较显著的差异性,于是我得出初步结论,前八十回和后四十回,作者并不是同一个人。

完成了高频词汇的分析后,下面,我们对虚字进行分析。

虚字,是指不能单独成句,意义比较抽象,而具有一定语法意义的字或词。古典小说中的虚字是构成句子必不可少的成分,其使用不受故事情节的制约,仅与作者的写作习惯有关。

……

我们对44个虚字作为研究对象,44个虚字如下:之、其、或、亦、方、于……偏、儿。

在研究之前,首先我对监督学习作简单介绍,监督学习分为回归分析与分类分析两大类别,本文应用了分类分析。所谓分类是通过分析已知数据,构造一个分类函数或者分类模型(即分类器),利用该模型将数据库中数据映射到某一给定类别中……

接下来,我将运用监督学习中的朴素贝叶斯法和BP神经网络对红楼梦各回作分类研究,并根据分类准确度分析前八十回和后四十回的差异性!】

富旦大学。

张教授身边,人越聚越多。

“他说的这是啥啊?”

“我怎么全程都听不懂?”

“什么是朴素贝叶斯法?是数学么?”

“BP神经网络啥意思?生物学?还是计算机?”

“这确定是,在考证《红楼梦》后四十回是伪作么?”

“张教授,你能看懂他说的是啥么?”

“张教授?”

在场的所有教授都傻了,全都看不懂啊。

什么朴素贝叶斯法,什么BP神经网络,又什么折线图啊,这些文学方面的大教授们,哪懂这些?

用数学、计算机技术等,去研究文史问题,他们闻所未闻啊。

虽然这样的研究在前世已经是常规手段,但是这一世的人们哪见过这个?

对于这一世的所有网友来说,对于这些大教授来说,现在已经不是震不震惊的问题了,也不是吐不吐槽的问题了。而是,完全看不懂的问题!

完全看不懂啊!

想吐槽几句,想骂几句,都不知道从何开口!

张教授傻了。

视频里讲解的内容,他听不懂,傻了!

江小白就是三无的这个真相,他更接受不了,更傻了!

他一时间怔在原地,他的认知上,从来都没受到过如此重大的冲击。

……

“卧槽,他怎么还列上数学式子了呢?”

众教授连忙再次望向手机屏幕!

【设有m个输入变量x={X?,X?,…,Xm},有n个可能取值分类型变量y={y?,y?,…,yn},则根据贝叶斯定理有:P(y=y0|x?,x?,…,Xm)=P(x?,x?,…,Xm……

根据最大后验概率原则,输出变量应预测n个后验概率中最大的概率值对应的类别。

……

首先将前八十回标记为类别1,将后四十回标记为类别2,进行朴素贝叶斯分类估计。

……

由表可知,准确率最小值为0.76000,而最大准确率达1(对测试集分类百分之百正确),平均准确率为0.91609。

假定两种分类方式的准确率总体服从正态分布,因为样本量为1000,属于大样本检验,因此采用z检验。建立假设并进行检验:

H0:μ1-μ2≤0

H1:μ1-μ20

……

其中,xˉ1=0.91609,xˉ2=0.61587,s21=0.00192,s22=0.00746……

既然p是极显著大于p2的,那么就说明前八十回与后四十回的分类方式相比于任意一般的分类方式而言,类别之间的差异性更明显,即前八十回和后四十回文本特征存在显著的差异。

也就是说,从虚字角度分析,前八十回和后四十回,也不是同一作者的手笔。

因此,无论是从高频词汇分析,还是从虚字分析,通过科学方法研究后,我得出以下结论:《红楼梦》前80回,和后四十回,并不是出自同一人之手。】

弹幕上终于松了一口气:

“终于完事了,脑袋里全是浆糊,懵了啊!”

“我刚刚究竟看了个啥?”

“全程懵逼中!”

“我突然想喷几句话,但发现我完全不知道从何喷起。因为我啥啥都没听懂啊!”

“视频还没结束么?哟,才进行了三分之二?”

“还没结束么?”

【下面,为了对我的研究成果进行验证,我们引入BP神经网络。

所谓BP神经网络是一种利用误差反向传播算法的人工神经网络,可以有效的解决很复杂的有大量互相相关的分类问题……】

弹幕,集体崩溃了。

“我靠,又来!”

“神啊,救救我吧。”

“请直接说结论!!”

“苍了个天!”

……

【朴素贝叶斯分类器平均准确率为0.91677,方差为0.00201;而BP神经网络分类器平均准确率为0.93513,方差为0.00175。

因此,我的研究成果是没有问题的。

综上所述,从高频词汇角度研究,我运用各组高频词汇频数变化折线图。从虚字角度,用了朴素贝叶斯和BP神经网络分类方法,作了组内与组间对照研究。

结果表明,】

视频中,三无的语气加重,严肃而肯定:

“《红楼梦》前八十回与后四十回文本特征存在显著的差异性,即前八十回和后四十回作者不是同一个人!】

短视频播放完毕!

富旦大学办公室内,围观的众教授,一头雾水!

此时此刻,他们和所有网友一样,都没看懂。

这个全程运用了统计学、计算机技术等科学手段进行文史研究的方法,对于这一世的人们来说,太超前了。

虽然在前世司空见惯,但是在这一世,所有人是闻所未闻,见所未见!

“三无关于《后出师表》的研究,我听得明明白白的。但是这个我完全懵了。”

“我完全理解不了他刚刚的内容,是对是错,完全不明白啊!”

“咱们先别谈这个研究哈,张主任,你竟然认识三无,你也太厉害了吧?”

“张主任人脉是广啊,竟然连三无都认识!”

“原来你的朋友,竟然是大名鼎鼎的三无,哇,你真的是神通广大啊。”

“张主任,您干嘛去?”

“张主任?”

张主任突然转身离去,一路小跑着奔向楼梯,同事的声音早已来不及回答。

(PS:文中公式是错的,因为正确的公式,字体识别不出来。)

↑返回顶部↑

书页/目录