近年来软集合理论发展迅速。学者从基本概念和运算、软分析理论、软概率理论、软代数理论及软拓扑等方面对软集合基本理论进行了扩展,将这些理论进展应用于预测、文本处理、参数约简与选择以及决策等,并取得了丰富的成果。这些成果为构建基于软集合理论的预测性文本挖掘方法提供了理论基础和借鉴。其中软集合参数化集族的表示方式和不同软集合之间关系研究为刻画文本特征之间的非精确关系提供了新的思路,软概率、软条件概率、软序列概率以及软条件序列概率则为刻画预测过程中的非精确现象、构建预测方法提供了新的途径。尽管如此,基于软集合理论的预测方法尚不完善。
《基于软集合理论的预测性文本挖掘方法》主要从四个方面探讨了如何使用软集合理论构建预测性文本挖掘方法:针对特征间非精确关系的描述问题,使用近似软集合、依赖度软集合和不可分辨关系软集合来刻画特征选择方法;针对预测性文本挖掘中预测因素和预测结果之间关系的非精确性,使用软概率、软条件概率以及软依赖构建模型;考虑预测过程中滞后效应的影响,使用软序列概率、软序列条件概率以及软序列依赖构建了预测模型;更进一步,考虑文本数据的粗糙性,使用粗糙隶属函数构建了粗糙软依赖模型,把对粗糙的表示融入预测过程中。这些方面为软集合理论在预测领域的发展提供了思路。
大数据时代,文本数据数量众多并富含价值,文本挖掘越来越重要。例如,金融机构通过文本挖掘研究新闻事件对股价的影响,医学工作者通过文本挖掘研究电子病历以提升诊疗效果,等等。预测性文本挖掘使用文本挖掘的理论和工具识别蕴含于文本数据中的模式及规律,并将这些模式应用于预测,以帮助人们推知和判断事物在未来的发展状况。然而,预测性文本挖掘的自然语言特征和非精确性等不确定性特征增加了规律识别和推知未来的难度。软集合理论是处理不确定性的数学理论之一,为处理文本数据以及表示预测的非精确性提供了新的思路。它源于对近似描述问题的研究,以寻找近似解为构建理念,使用参数化集族的方式描述问题,着眼于建立非精确模型解决问题,并得到相应的近似解。从理论构建理念、问题描述方式和解决路径来看,软集合理论适于作为预测性文本挖掘的基本理论。
近年来软集合理论发展迅速。学者从基本概念和运算、软分析理论、软概率理论、软代数理论及软拓扑等方面对软集合基本理论进行了扩展,将这些理论进展应用于预测、文本处理、参数约简与选择以及决策等,并取得了丰富的成果。这些成果为构建基于软集合理论的预测性文本挖掘方法提供了理论基础和借鉴。其中软集合参数化集族的表示方式和不同软集合之间关系研究为刻画文本特征之间的非精确关系提供了新的思路,软概率、软条件概率、软序列概率以及软条件序列概率则为刻画预测过程中的非精确现象、构建预测方法提供了新的途径。尽管如此,基于软集合理论的预测方法尚不完善。
本书主要从四个方面探讨了如何使用软集合理论构建预测性文本挖掘方法:针对特征间非精确关系的描述问题,使用近似软集合、依赖度软集合和不可分辨关系软集合来刻画特征选择方法;针对预测性文本挖掘中预测因素和预测结果之间关系的非精确性,使用软概率、软条件概率以及软依赖构建模型;考虑预测过程中滞后效应的影响,使用软序列概率、软序列条件概率以及软序列依赖构建了预测模型;更进一步,考虑文本数据的粗糙性,使用粗糙隶属函数构建了粗糙软依赖模型,把对粗糙的表示融入预测过程中。这些方面为软集合理论在预测领域的发展提供了思路。
杨道理,男,毕业院校为重庆大学经济与工商学院,博士学历,任职院校为重庆工商大学管理科学与工程学院,职称讲师,专业管理科学与工程,研究方向为电子商务、文本挖掘及软集合理论等。肖智,男,毕业院校重庆大学,博士学历,任职院校重庆大学经济与工商管理学院信息管理系,职称教授,专业管理科学与工程,研究方向为运筹学、统计学、预测与决策、数据模型与决策、金融风险与监测、商务智能与数据挖掘等。
1 绪论 / 1 1研究背景及意义 / 1 1研究思路、 研究内容与技术路线 / 7 1创新之处 / 12 2 相关基础理论及研究现状 / 15 2预测性文本挖掘的研究现状 / 15 2本书应用的相关理论 / 26 2软集合理论及应用研究现状 / 29 2小结 / 35 3 面向文本数据的软集合特征选择 / 37 3引言 / 37 3成对关系软集合及相关理论 / 39 3面向文本数据的软集合特征选择方法 / 49 3算例分析 / 53 3与其他方法的比较 / 57 3小结 / 63 4 面向文本数据的软依赖预测 / 65 4引言 / 65 4软依赖及相关理论 / 68 4面向文本数据的软依赖预测方法 / 73 4算例分析 / 922 4应用分析 / 100 4小结 / 109 5 面向文本数据的软序列依赖预测 / 111 5引言 / 111 5软序列依赖及相关理论 / 113 5面向文本数据的软序列依赖预测方法 / 118 5算例分析 / 129 5应用分析 / 134 5小结 / 141 6 面向文本数据的粗糙软依赖预测 / 143 6引言 / 143 6粗糙软依赖及相关理论 / 145 6面向文本数据的粗糙软依赖预测方法 / 147 6算例分析 / 156 6与其他方法的比较 / 162 6小结 / 163 7 主要结论及下一步的研究方向 / 164 7主要结论 / 164 7下一步的研究方向 / 167 参考文献 / 168 附录 / 184