本书阐述词法分析、文本分类、文本聚类、文本检索、垃圾邮件过滤、情感分析、个性化推荐等文本分析与文本挖掘方面的理论方法。人工智能技术与互联网的发展更是为该领域研究提出新的需求,书中相关理论和技术可以直接用于解决具体文本分析与文本挖掘的问题,也可以为进一步研究提供理论方法基础。本书包括理论、技术,既适合理论方法的学习,又适合工程实践。本书配套软件、更多案例、技术文档、配套PPT课件等请登录和查询。
更多科学出版社服务,请扫码获取。
目录
第1章 统计中文分词技术 1
1.1 词法分析问题 1
1.2 词典与基于规则分词 4
1.3 仿词识别与最少分词技术 7
1.4 基于词网格的N-gram统计分词技术 11
1.5 数据平滑与专业词抽取 18
1.6 本章小结 25
第2章 词性标注与序列标注 27
2.1 三个序列标注问题 27
2.2 隐马尔可夫序列标注 31
2.3 CRF模型与序列标注 39
2.4 CRF中文词性标注 43
2.5 组合分类器的序列标注方法 46
2.6 实验结果与分析 52
2.7 本章小结 56
第3章 命名实体识别 58
3.1 中文命名实体识别特点与任务描述 58
3.2 ME模型及其适用性 60
3.3 基于ME模型的中文命名实体识别 64
3.4 双层混合模型方法研究 70
3.5 实验结果与分析 74
3.6 本章小结 78
第4章 文本分类技术 80
4.1 文本的向量空间模型 80
4.2 文本相似度与kNN分类 85
4.3 朴素贝叶斯文本分类 93
4.4 朴素贝叶斯分类中的特征缺失补偿策略 96
4.5 基于SVM的文本分类 102
4.6 基于分类技术的歧义消解问题 107
4.7 本章小结 112
第5章 文本聚类技术 114
5.1 聚类方法与文本聚类问题 114
5.2 k-均值与k-中心点文本聚类方法 119
5.3 文本层次聚类方法 124
5.4 基于聚类技术的词义分析 126
5.5 其他聚类方法 130
5.6 本章小结 133
第6章 文本检索技术 135
6.1 Web检索系统构成与文本检索的评价 135
6.2 信息检索模型与布尔模型 138
6.3 向量空间模型与相关性反馈检索模型 140
6.4 扩展的布尔模型与概率模型 145
6.5 信息检索与信息过滤及信息推荐的关系 149
6.6 本章小结 153
第7章 垃圾邮件过滤与情感分析 155
7.1 垃圾邮件过滤问题与框架 155
7.2 朴素贝叶斯垃圾邮件过滤方法 159
7.3 ME模型与SVM垃圾邮件过滤方法 162
7.4 情感分析问题 167
7.5 情感分析方法 172
7.6 本章小结 181
第8章 个性化协同过滤推荐技术 183
8.1 推荐问题提出 183
8.2 通用推荐与个性化推荐 188
8.3 基本协同过滤推荐方法 192
8.4 基于SVD的协同过滤推荐 200
8.5 改进协同过滤推荐方法 207
8.6 本章小结 214
第8第9章 组合推荐技术 215
9.1 基于内容的推荐技术 215
9.2 基于分类技术的推荐方法 219
9.3 基于推理的推荐技术 230
9.4 混合推荐方法 238
9.5 本章小结 242
参考文献 243