《高等学校计算机规划教材:数据挖掘原理与实践》分为数据挖掘理论和数据挖掘实践两大部分。基础理论部分的主要内容包括数据挖掘的基本概念、数据挖掘的预处理、聚类分析、分类与回归、关联规则挖掘、例外点检测。数据挖掘实践部分讨论了数据挖掘在通信行业、文本挖掘等方面的实际应用;通过四个案例展示了在通信行业中如何利用数据挖掘进行客户细分、客户流失分析、客户社会关系挖掘、业务交叉销售;通过跨语言智能学术搜索系统和基于内容的垃圾邮件识别两个案例展示了数据挖掘在文本挖掘方面的应用。
《高等学校计算机规划教材:数据挖掘原理与实践》可作为高等院校计算机电子商务及相关专业的学生相关的教材或参考书,也可供从事数据挖掘研究、设计等工作的科研、技术人员参考。
数据挖掘技术应用越来越广泛,社会对掌握数据挖掘技术的人才需求越来越大,越来越多的高校在计算机相关专业及经济、管理类专业开设了数据挖掘课程,以适应社会的需求。
本书旨在向读者介绍数据挖掘的基本原理、方法,数据挖掘应用流程,通过原理、方法应用的背景介绍,使读者理解、掌握如何选择数据挖掘方法解决实际问题,通过案例的分析使读者能够应用这些方法解决现实世界中的问题。
全书分为上、下两篇,共分8章。上篇包括第1~6章,下篇包括第7~8章。
第1章介绍数据挖掘的基本概念以及数据挖掘的重要应用领域。
第2章介绍数据的基本统计量以及数据预处理的常用方法。
第3章介绍分类的基本概念、应用背景,重点介绍决策树、贝叶斯、最近邻分类方法。
第4章介绍聚类分析的基本概念、应用背景,重点介绍常用的聚类方法。
第5章介绍关联分析的基本概念、应用背景,重点介绍频繁模式挖掘算法(Apriori算法和Fp-growth算法)、序列模式挖掘算法。
第6章介绍例外点挖掘的基本概念、应用背景,重点介绍基于距离、基于相对密度、基于聚类的例外点挖掘方法。
第7章介绍数据挖掘在通信行业中的客户细分、客户流失分析、客户社会关系挖掘、业务交叉销售等方面的应用,并通过实际案例进行了分析。
第8章介绍数据挖掘在文本处理方面的应用,介绍文本挖掘和Web挖掘的基本概念,通过跨语言智能学术搜索系统和基于内容的垃圾邮件识别两个案例进行了分析。
本书除了介绍数据挖掘的经典方法之外,也融入了作者的部分研究成果。
本书的出版融会了许多人的辛勤劳动。第1、2、4、6、7、8章由蒋盛益负责,第3章由李霞负责,第5章由郑琪负责。参与编写工作的还有庞观松、王连喜、吴美玲、谢照青、阳垚、苗邦等。印鉴教授、王家兵副教授认真审阅了初稿,指出了一些纰漏,并提出了修改建议。本书的出版得到了电子工业出版社的大力支持,书中参考了许多学者的研究成果,在此一并表示衷心感谢。
限于作者学识水平,书中肯定存在不足和疏漏,敬请读者批评指正。
本书为任课教师提供配套的教学资源(包含电子教案和例题源代码),需要者可登录华信教育资源网,注册之后进行下载。
作者
上篇 理论篇
第1章 绪论
1.1 数据挖掘产生的背景
1.2 数据挖掘任务及过程
1.2.1 数据挖掘定义
1.2.2 数据挖掘对象
1.2.3 数据挖掘任务
1.2.4 数据挖掘过程
1.2.5 数据挖掘常用软件简介
1.3 数据挖掘应用
1.3.1 数据挖掘在商业领域中的应用
1.3.2 数据挖掘在计算机领域中的应用
1.3.3 其他领域中的应用
1.4 数据挖掘技术的前景、研究热点
1.4.1 数据挖掘技术的价值和前景
1.4.2 数据挖掘的研究热点
1.4.3 数据挖掘的未来发展
本章小结
习题1
第2章 数据处理基础
2.1 数据
2.1.1 数据及数据类型
2.1.2 数据集的类型
2.2 数据统计特性
2.2.1 数据的中心度量
2.2.2 数据散布程度度量
2.3 数据预处理
2.3.1 数据清理
2.3.2 数据聚合
2.3.3 数据变换
2.3.4 数据归约
2.4 相似性度量
2.4.1 属性之间的相似性度量
2.4.2 对象之间的相似性度量
2.5 本章小结
习题2
第3章 分类与回归
3.1 概述
3.2 决策树分类方法
3.2.1 决策树的基本概念
3.2.2 决策树的构建
3.2.3 ID3分类算法
3.2.4 C4.5分类算法
3.2.5 CART算法
3.3 贝叶斯分类方法
3.3.1 贝叶斯定理
3.3.2 朴素贝叶斯分类算法
3.4 K-最近邻分类方法
3.4.1 K-最近邻分类算法基本概念
3.4.2 K-最近邻分类算法描述
3.4.3 k-最近邻分类算法的优缺点
3.5 神经网络分类方法
3.5.1 人工神经网络的基本概念
3.5.2 典型神经网络模型介绍
3.5.3 神经网络的优缺点
3.6 支持向量机
3.7 集成学习法
3.8 不平衡类问题
3.9 分类模型的评价
3.9.1 分类模型性能评价指标
3.9.2 分类模型的过分拟合
3.9.3 评估分类模型性能的方法
3.10 回归
3.10.1 线性回归
3.10.2 非线性回归
3.10.3 逻辑回归
3.11 本章小结
习题3
第4章 聚类分析
4.1 概述
4.1.1 聚类分析研究的主要内容
4.1.2 数据挖掘对聚类算法的要求
4.1.3 典型聚类方法简介
4.2 基于划分的聚类算法
4.2.1 基本k-means聚类算法
4.2.2 二分k-means算法
4.2.3 k-means聚类算法的拓展
4.2.4 k-medoids算法
4.3 层次聚类算法
4.3.1 BIRCH算法
4.3.2 CURE算法
4.3.3 ROCK算法
4.4 基于密度的聚类算法
4.5 基于图的聚类算法
4.5.1 Chameleon聚类算法
4.5.2 基于SNN的聚类算法
4.6 一趟聚类算法
4.6.1 算法描述
4.6.2 聚类阈值的选择策略
4.7 基于模型的聚类算法
4.7.1 期望最大化方法EM
4.7.2 概念聚类
4.7.3 SOM方法
4.8 聚类算法评价
本章小结
习题4
第5章 关联分析
5.1 概述
5.2 频繁项集发现算法
5.2.1 Apriori 算法
5.2.2 Fp-growth算法
5.3 关联规则的生成
5.4 非二元属性的关联规则挖掘
5.5 关联规则的评价
5.5.1 支持度和置信度
5.5.2 相关性分析
5.5.3 辛普森悖论
5.6 序列模式
5.6.1 问题描述
5.6.2 序列模式发现算法
5.7 本章小结
习题
第6章 离群点挖掘
6.1 概述
6.2 基于统计的方法
6.3 基于距离的方法
6.4 基于相对密度的方法
6.5 基于聚类的方法
6.5.1 基于对象离群因子的方法
6.5.2 基于簇的离群因子方法
6.5.3 基于聚类的动态数据离群点检测
6.6 离群点挖掘方法的评估
6.7 本章小结
习题
下篇 实践篇
第7章 数据挖掘在电信业中的应用
7.1 数据挖掘在电信业的应用概述
7.1.1 客户细分
7.1.2 客户流失预测分析
7.1.3 客户社会关系挖掘
7.1.4 业务交叉销售
7.1.5 欺诈客户识别
7.2 案例一: 客户通话模式分析
7.2.1 概述
7.2.2 数据描述
7.2.3 数据预处理
7.2.4 发现之旅
7.3 案例二:基于通话数据的社会网络分析
7.3.1 概述
7.3.2 客户呼叫图的构建
7.3.3 客户呼叫图的一般属性及其应用
7.3.4 客户呼叫图的社区发现及应用
7.4 案例三:客户细分与流失分析
7.4.1 概述
7.4.2 数据准备
7.4.3 数据预处理
7.4.4 客户聚类分析
7.4.5 建立分类预测模型
7.4.6 模型评估与调整优化
7.5 案例四:移动业务关联分析
7.5.1 概述
7.5.2 数据准备
7.5.3 数据预处理
7.5.4 关联规则挖掘过程
7.5.5 规则的优化
7.5.5 模型的应用
7.6 本章小结
第8章 文本挖掘与Web数据挖掘
8.1 文本挖掘
8.1.1 分词
8.1.2 文本表示与词权重计算
8.1.3 文本特征选择
8.1.4 文本分类
8.1.5 文本聚类
8.1.6 文档自动摘要
8.2 Web数据挖掘
8.2.1 Web内容挖掘
8.2.2 Web使用挖掘
8.2.3 Web结构挖掘
8.3 案例五——跨语言智能学术搜索系统
8.3.1 混合语种文本分词
8.3.2 基于机器翻译的跨语言信息检索
8.3.3 不同语种文本的搜索结果聚类
8.3.4 基于聚类的个性化信息检索
8.3.5 基于聚类的查询扩展
8.3.6 其他检索便利工具
8.3.7 系统性能评估
8.4 案例六——基于内容的垃圾邮件识别
8.4.1 垃圾邮件识别方法简介
8.4.2 基于内容的垃圾邮件识别方法工作原理
8.4.3 一种基于聚类的垃圾邮件识别方法
8.5 本章小结
参考文献