本书主要介绍数据挖掘的基本技术和应用。数据挖掘作为一个多学科领域,从多个学科汲取营养。这些学科包括统计学、机器学习、模式识别、数据库技术、信息检索、网络科学、知识库系统、人工智能、高性能计算和数据可视化。我们提供发现隐藏在大型数据集中的模式的技术,关注可行性、有用性、有效性和可伸缩性问题。尽管我们确实提供了这些领域的必要背景材料,以便读者理解它们各自在数据挖掘中的作用。本书中由浅入深的为每个章节准备了案例,使读者能了解数据挖掘技术是如何运用在实际问题上的,从而灵活运用所学知识和技能。
中科曙光下的教育培训结构,目前在全国有几十所合作院校,部分高校实现了课程植入,瑞翼教育对每个教育点派驻教学团队。一流企业+高校,大数据、人工智能必修课程,企业案例+实践平台
吴建生,广西科技师范学院数学与计算机科学学院教授、硕士生导师。数学与计算机科学学院院长,中国计算机学会高级会员、广西人工智能常务理事、广西数学学会常务理事。研究领域为智能计算、机器学习、数据挖掘。获得广西科学技术进步二等奖3项。公开发表研究论文30 多篇,被 SCI、EI 收录论文18 篇,完成软件著作8套,发明专利4个、实用新型专利10多个。
第 1 章 数据挖掘概述 1
1.1 数据挖掘发展简述 1
1.1.1 数据时代 1
1.1.2 数据分析的技术发展 2
1.2 数据挖掘概念 5
1.2.1 数据挖掘的定义与OLAP 5
1.2.2 数据挖掘与知识发现KDD 6
1.3 数据挖掘的功能与应用领域 9
1.3.1 电子商务 9
1.3.2 电信行业 10
1.3.3 金融行业 10
1.3.4 医疗行业 10
1.3.5 社会网络 11
1.3.6 数据挖掘应用的问题 11
1.4 数据挖掘的模式类型 11
1.4.1 类/概念描述:特征和区分 12
1.4.2 回归(regression) 13
1.4.3 分类(classification) 14
1.4.4 预测(forecasting) 15
1.4.5 关联分析(association) 15
1.4.6 聚类分析(cluster) 16
1.4.7 异常检测(anomalydetection) 17
1.4.8 小结 17
1.5 数据挖掘的数据类型 18
1.5.1 数据库 18
1.5.2 数据仓库数据 19
1.5.3 其它数据类型 20
1.6 数据挖掘的交叉学科 20
1.6.1 统计学 21
1.6.2 机器学习 21
1.6.3 数据库与数据仓库 22
第 2章 Pandas数据分析 23
2.1 Pandas与数据分析 23
2.1.1 统计学与数据挖掘 23
2.1.2 常用的统计学指标 24
2.1.3 Pandas的简单介绍 26
2.2 Pandas统计案例分析 30
2.2.1 实验实现Pandas自行车数据分析 30
2.2.2 实验实现Pandas服务热线数据分析 36
第3章 数据挖掘与机器学习 41
3.1 数据挖掘中的机器学习 41
3.1.1 什么是机器学习? 41
3.1.2 机器学习处理的问题 42
3.1.3 机器学习的框架 42
3.1.4 数据的加载和分割 43
3.2 机器学习的模型 45
3.2.1 模型的选择 45
3.2.1 学习和预测 46
3.2.3 实验实现机器学习模型 47
3.3 模型的评判和保存 48
3.3.1 分类、回归、聚类不同的评判指标 48
3.3.2 交叉验证 (Cross validation) 49
3.3.3 实验实现分类、回归指标 50
3.3.4 实验实现cross_val_score 51
3.3.5 实验实现模型的保存 52
3.4 支持向量机 53
3.4.1 支持向量机 53
3.4.2 实验实现支持向量机分类 54
3.4.3 实验实现支持向量机回归 55
3.4.4 实验实现支持向量机异常检测 55
3.5 过拟合问题 58
3.5.1 过拟合 58
3.5.2 实验实现学习曲线和验证曲线 59
第4章 分类分析方法与应用 62
4.1 数据挖掘分类问题 62
4.2 概率模型 63
4.2.1 原理 63
4.2.2 应用场景 66
4.3 朴素贝叶斯分类 66
4.3.1 原理与应用场景 66
4.3.2 实验实现朴素贝叶斯算法 67
4.4 向量空间模型 68
4.4.1 原理与应用场景 68
4.4.2 实验实现空间向量模型 69
4.5 KNN算法 72
4.5.1 原理与应用场景 72
4.5.2 实验实现KNN算法 74
4.6 多类问题 76
4.6.1 原理与应用场景 76
4.6.2 实验实现多类问题 77
第5章 回归模型算法与应用 79
5.1 回归预测问题 80
5.2 线性回归 81
5.2.1 原理与应用场景 81
5.2.2 实验实现线性回归 82
5.3 岭回归和LASSO 84
5.3.1 原理与应用场景 84
5.3.2 实验实现岭回归 87
5.4 逻辑回归 89
5.4.1 原理与应用场景 89
5.4.2 实验实现逻辑回归 91
第6章 无监督学习 94
6.1 无监督学习问题 94
6.1.1 无监督学习 94
6.1.2 聚类分析的基本概念与原理 95
6.2 划分聚类 96
6.2.1 划分聚类 96
6.2.2 K-Means算法 97
6.2.3 实验实现K-Means算法 100
6.3 层次聚类 103
6.3.1 层次聚类算法 103
6.3.2 实验实现层次聚类算法实现 105
6.4 聚类效果评测 106
6.4.1 聚类效果的评测 106
6.4.2 实验实现聚类效果评测 107
6.5 降维 108
6.5.1 降维方法 108
6.5.2 实验实现降维 108
第7章 关联规则 110
7.1 关联规则的概念 111
7.1.1 什么是关联规则? 111
7.2 Apriori算法 112
7.2.1 Apriori算法概念 112
7.2.2 Apriori算法实现原理 113
7.2.3 实验实现Apriori算法 115
7.3 协同过滤 119
7.3.1 协同过滤算法的概念 119
7.3.2 协同过滤(基于用户) 120
7.3.3 协同过滤(基于用户) 122
7.3.4 实验实现协同过滤算法 124
第8章 图像数据分析 129
8.1 图像数据 129
8.2 图像数据分析方法 131
8.3 图像数据分析案例 133
8.3.1 PIL:Python图像处理类库应用示例 133
8.3.2 Numpy图像数据分析示例 138
8.3.3 Scipy图像数据分析示例 141
8.3.4 scikit-image 145
8.3.5 综合练习 150
第 9 章 自然语言处理与NLTK 151
9.1 自然语言处理概述 151
9.1.1 什么是自然语言处理? 151
9.2 NLTK入门基础 152
9.2.1 Python的第三方模块NLTK 152
9.2.2 实验实现词条化 153
9.2.3 实验实现词干还原 154
9.2.4 实验实现词型归并 155
9.2.5 实验实现文本划分 156
9.2.6 实验实现数值型数据的转换 157
9.3 NLTK文本分析 159
9.3.1 实验实现文本分类器 159
9.3.2 实验实现性别判断 161
9.3.3 实验实现情感分析 162