《高等学校计算机规划教材:数据挖掘原理与实践》分为数据挖掘理论和数据挖掘实践两大部分。基础理论部分的主要内容包括数据挖掘的基本概念、数据挖掘的预处理、聚类分析、分类与回归、关联规则挖掘、例外点检测。数据挖掘实践部分讨论了数据挖掘在通信行业、文本挖掘等方面的实际应用;通过四个案例展示了在通信行业中如何利用数据挖掘进行客户细分、客户流失分析、客户社会关系挖掘、业务交叉销售;通过跨语言智能学术搜索系统和基于内容的垃圾邮件识别两个案例展示了数据挖掘在文本挖掘方面的应用。
《高等学校计算机规划教材:数据挖掘原理与实践》可作为高等院校计算机电子商务及相关专业的学生相关的教材或参考书,也可供从事数据挖掘研究、设计等工作的科研、技术人员参考。
上篇 理论篇
第1章 绪 论
1.1 数据挖掘产生的背景
1.2 数据挖掘任务及过程
1.2.1 数据挖掘定义
1.2.2 数据挖掘对象
1.2.3 数据挖掘任务
1.2.4 数据挖掘过程
1.2.5 数据挖掘常用软件简介
1.3 数据挖掘应用
1.3.1 数据挖掘在商业领域中的应用
1.3.2 数据挖掘在计算机领域中的应用
1.3.3 其他领域中的应用
1.4 数据挖掘技术的前景、研究热点
1.4.1 数据挖掘技术的价值和前景
1.4.2 数据挖掘的研究热点
1.4.3 数据挖掘的未来发展
本章小结
习题
第2章 数据处理基础
2.1 数据
2.1.1 数据及数据类型
2.1.2 数据集的类型
2.2 数据统计特性
2.2.1 数据的中心度量
2.2.2 数据散布程度度量
2.3 数据预处理
2.3.1 数据清理
2.3.2 数据聚合
2.3.3 数据变换
2.3.4 数据归约
2.4 相似性度量
2.4.1 属性之间的相似性度量
2.4.2 对象之间的相似性度量
2.5 本章小结
习题
第3章 分类与回归
3.1 概述
3.2 决策树分类方法
3.2.1 决策树的基本概念
3.2.2 决策树的构建
3.2.3 ID3分类算法
3.2.4 C4.5分类算法
3.2.5 CART算法
3.3 贝叶斯分类方法
3.3.1 贝叶斯定理
3.3.2 朴素贝叶斯分类算法
3.4 K-最近邻分类方法
3.4.1 K-最近邻分类算法基本概念
3.4.2 K-最近邻分类算法描述
3.4.3 k-最近邻分类算法的优缺点
3.5 神经网络分类方法
3.5.1 人工神经网络的基本概念
3.5.2 典型神经网络模型介绍
3.5.3 神经网络的优缺点
3.6 支持向量机
3.7 集成学习法
3.8 不平衡类问题
3.9 分类模型的评价
3.9.1 分类模型性能评价指标
3.9.2 分类模型的过分拟合
3.9.3 评估分类模型性能的方法
3.10 回归
3.10.1 线性回归
3.10.2 非线性回归
3.10.3 逻辑回归
3.11 本章小结
习题
第4章 聚类分析
4.1 概述
4.1.1 聚类分析研究的主要内容
4.1.2 数据挖掘对聚类算法的要求
4.1.3 典型聚类方法简介
4.2 基于划分的聚类算法
4.2.1 基本k-means聚类算法
4.2.2 二分k-means算法
4.2.3 k-means聚类算法的拓展
4.2.4 k-medoids算法
4.3 层次聚类算法
4.3.1 BIRCH算法
4.3.2 CURE算法
4.3.3 ROCK算法
4.4 基于密度的聚类算法
4.5 基于图的聚类算法
4.5.1 Chameleon聚类算法
4.5.2 基于SNN的聚类算法
4.6 一趟聚类算法
4.6.1 算法描述
4.6.2 聚类阈值的选择策略
4.7 基于模型的聚类算法
4.7.1 期望最大化方法EM
4.7.2 概念聚类
4.7.3 SOM方法
4.8 聚类算法评价
本章小结
习题
第5章 关联分析
5.1 概述
5.2 频繁项集发现算法
5.2.1 Apriori 算法
5.2.2 Fp-growth算法
5.3 关联规则的生成
5.4 非二元属性的关联规则挖掘
5.5 关联规则的评价
5.5.1 支持度和置信度
5.5.2 相关性分析
5.5.3 辛普森悖论
5.6 序列模式
5.6.1 问题描述
5.6.2 序列模式发现算法
5.7 本章小结
习题
第6章 离群点挖掘
6.1 概述
6.2 基于统计的方法
6.3 基于距离的方法
6.4 基于相对密度的方法
6.5 基于聚类的方法
6.5.1 基于对象离群因子的方法
6.5.2 基于簇的离群因子方法
6.5.3 基于聚类的动态数据离群点检测
6.6 离群点挖掘方法的评估
6.7 本章小结
习题
下篇 实践篇
第7章 数据挖掘在电信业中的应用
7.1 数据挖掘在电信业的应用概述
7.1.1 客户细分
7.1.2 客户流失预测分析
7.1.3 客户社会关系挖掘
7.1.4 业务交叉销售
7.1.5 欺诈客户识别
7.2 案例一: 客户通话模式分析
7.2.1 概述
7.2.2 数据描述
7.2.3 数据预处理
7.2.4 发现之旅
7.3 案例二:基于通话数据的社会网络分析
7.3.1 概述
7.3.2 客户呼叫图的构建
7.3.3 客户呼叫图的一般属性及其应用
7.3.4 客户呼叫图的社区发现及应用
7.4 案例三:客户细分与流失分析
7.4.1 概述
7.4.2 数据准备
7.4.3 数据预处理
7.4.4 客户聚类分析
7.4.5 建立分类预测模型
7.4.6 模型评估与调整优化
7.5 案例四:移动业务关联分析
7.5.1 概述
7.5.2 数据准备
7.5.3 数据预处理
7.5.4 关联规则挖掘过程
7.5.5 规则的优化
7.5.5 模型的应用
7.6 本章小结
第8章 文本挖掘与Web数据挖掘
8.1 文本挖掘
8.1.1 分词
8.1.2 文本表示与词权重计算
8.1.3 文本特征选择
8.1.4 文本分类
8.1.5 文本聚类
8.1.6 文档自动摘要
8.2 Web数据挖掘
8.2.1 Web内容挖掘
8.2.2 Web使用挖掘
8.2.3 Web结构挖掘
8.3 案例五--跨语言智能学术搜索系统
8.3.1 混合语种文本分词
8.3.2 基于机器翻译的跨语言信息检索
8.3.3 不同语种文本的搜索结果聚类
8.3.4 基于聚类的个性化信息检索
8.3.5 基于聚类的查询扩展
8.3.6 其他检索便利工具
8.3.7 系统性能评估
8.4 案例六--基于内容的垃圾邮件识别
8.4.1 垃圾邮件识别方法简介
8.4.2 基于内容的垃圾邮件识别方法工作原理
8.4.3 一种基于聚类的垃圾邮件识别方法
8.5 本章小结
参考文献