《计量文体学导论》通俗而且详细介绍了开展文体计量研究所需统计学的基础知识,并且利用统计学方法以及基于现代统计学理论的计算机文本挖掘技术(文本聚类和分类技术)开展了以下几方面的研究:中国古代和现代文学作品的文体特征的抽取、作者鉴定方法、特定作品的文体分析、作家语言使用的变异、以及计算机文体计量相关软件工具使用等诸多方面的研究。用计量方法研究了一些历来受到社会广泛关注的文体学问题。语言通俗易懂,对所涉及的数学和计算机方面的知识尽量使用比较简单方法进行描述,具有高中知识水平的读者既可以阅读理解。
计量文体学的理论和方法是精确考察作品文体风格、鉴定作品作者的有力武器,可以为司法工作提供科学的鉴定线索,可以为中国古典文献的整理研究提供更为科学的手段,使国学研究进一步科学化。
计量文体学研究在国外具有很长的历史,也积累了丰硕的科研成果。但是总体来讲和欧美、日本的这方面研究相比还存在着很大的差距,处于落后的局面。本书尝试从日本相关技术及研究方法中借鉴,希望可以起到抛砖引玉的作用。
《计量文体学导论》通俗而且详细介绍了开展文体计量研究所需的统计学基础知识,并且利用统计学方法以及基于现代统计学理论的计算机文本挖掘技术(文本聚类和分类技术)开展了以下几方面的计量文体学研究:中国古代和现代文学作品的文体特征抽取、作者鉴定方法、特定作品的文体分析、作家语言使用的变异、以及计算机文体计量相关软件工具使用等等。用计量方法研究了一些历来受到社会广泛关注的文体学问题,如作者不同文体风格相似作品的作者区分、作者相同风格不同的作品分析、古典名著作者的计量文体学分析等等。
施建军,北京外国语大学教授,主要从事日文信息计算机智能处理、日语语言学、文学作品作者鉴别、汉字文化圈国家语言文字、计算机辅助外语教学等领域的研究。主持或承担国家重大项目2项、国家社科项目3项以及多项省部级项目和国内外横向项目。
第一章 绪论
第一节 什么是计量文体学 1
第二节 国内外计量文体学发展的历史和现状 2
第三节 文体的计量特征 5
第二章 计量文体学相关重要统计学概念
第一节 文体特征的频率、概率、条件概率 31
第二节 文体特征的平均值、中位数、众数 37
第三节 文体特征的方差、标准差 46
第四节 文体特征的相关系数 52
第五节 特征和文体的相互信息 69
第三章 文体计量研究相关重要概率分布和定理
第一节 文体特征随机变量的分布 82
第二节 文体计量研究相关的几个重要概率分布 88
第三节 文体分析中的大数定律和中心极限定理 99
第四章 文体计量分析中的抽样和抽样分布
第一节 文章的抽样调查和抽样方法 106
第二节 文体的统计量和抽样分布 116
第五章 文体计量分析中的参数估计问题
第一节 文体特征参数的点估计 126
第二节 文体特征参数范围的估计 131
第三节 文体特征平均值范围的估计 135
第四节 文体特征参数范围估计与作家风格比较 152
第六章 文体特征差异的假设检验
第一节 何为假设检验 165
第二节 文体特征假设检验的一般步骤 171
第三节 Z检验在文体分析中的应用 175
第四节 T检验在文体分析中的应用 180
第五节 虚词使用习惯的假设检验 190
第六节 x2检验在文体分析中的应用 195
第七章 文体风格个体性差异的方差分析
第一节 文体方差分析的基本原理 202
第二节 不同作家文体特征的方差分析 209
第三节 相同作家不同作品文体特征的方差分析 220
第八章 文体特征的多变量分析
第一节 文本的聚类分析 226
第二节 文体研究中文本聚类分析的有效性 230
第三节 聚类分析和古典文学作品的作者研究 234
第四节 文体研究中文本聚类分析的局限性 241
第九章 支持向量机技术和文学作品作者鉴别
第一节 支持向量机的基本原理 248
第二节 支持向量机技术研究古典文学作品作者的有效性 249
第三节 支持向量机技术和《红楼梦》作者研究 252
参考文献 261
查看全部↓