近年来,大数据已在公共管理、医疗卫生、金融与商务等领域得到了广泛应用。如何对海量和高速增长的数据进行有效处理以及如何针对不同领域特点有效应用大数据,倍受广大科研工作者的广泛关注。本书集结了作者近年来在大数据及其应用领域的研究成果,针对大数据高效处理问题,从点排序识别聚类、多标签排序、不平衡数据采样、主动学习、增量学习等方面研究并设计了相关算法。在此基础上,对大数据环境下电信客户价值评价、客户换机预测和客户流失预测等问题,设计了相关算法、流程和仿真实验,并提出了一些合理化的建议,为大数据分析与在相关行业的应用提供了参考。
章 大数据处理概述 1
1.1 大数据的定义 1
1.2 大数据带来的挑战与机遇 3
1.3 大数据研究的现状 5
1.3.1 大数据处理平台 5
1.3.2 大数据处理算法 6
1.3.3 大数据应用研究 9
1.4 大数据研究的挑战与趋势 10
1.5 本章小结 11
参考文献 12
第2章 Spark点排序识别聚类结构算法 19
2.1 引言 19
2.2 点排序识别聚类结构算法 21
2.3 Spark并行内存计算框架 23
2.4 基于Spark的OPTICS算法 25
2.5 仿真实验与结果分析 27
2.5.1 度量标准 27
2.5.2 数据集与运行环境 28
2.5.3 实验方法 29
2.5.4 实验结果与分析 29
2.6 本章小结 32
参考文献 33
第3章 Spark标签校准排序多标签算法 35
3.1 引言 35
3.2 校准标签排序算法与并行化研究 36
3.2.1 校准标签排序算法介绍 36
3.2.2 校准标签排序算法研究现状 37
3.3 朴素贝叶斯校准标签排序方法 37
3.3.1 朴素贝叶斯概率模型 37
3.3.2 朴素贝叶斯校准标签排序算法 38
3.3.3 仿真实验与结果分析 40
3.4 朴素贝叶斯校准标签排序方法的并行化研究 44
3.4.1 Spark并行化内存计算 44
3.4.2 朴素贝叶斯校准标签排序算法的并行化研究 45
3.4.3 仿真实验与结果分析 47
3.5 本章小结 51
参考文献 52
第4章 不平衡数据的样本权重欠采样方法 54
4.1 引言 54
4.2 不平衡数据处理的相关方法 55
4.2.1 K-means聚类算法 55
4.2.2 AdaCost算法 56
4.2.3 Bagging算法 58
4.3 基于样本权重的欠采样方法 59
4.3.1 样本权重的确定 59
4.3.2 分类器加权投票 60
4.4 仿真实验与结果分析 61
4.4.1 分类的评价方法 61
4.4.2 非参数统计检验方法 62
4.4.3 UCI数据集检验 63
4.5 本章小结 67
参考文献 68
第5章 不平衡数据的三支决策过采样算法 70
5.1 引言 70
5.2 三支决策粗糙集 71
5.2.1 邻域模型 71
5.2.2 邻域三支决策模型 71
5.3 不平衡数据的三支决策过采样算法 74
5.3.1 算法思路 74
5.3.2 算法描述与分析 76
5.4 仿真实验与结果分析 77
5.4.1 数据集选择 77
5.4.2 实验方法 78
5.4.3 实验结果分析 79
5.5 本章小结 84
参考文献 84
第6章 三支决策主动学习方法 87
6.1 引言 87
6.2 主动学习理论 88
6.2.1 主动学习工作机制 88
6.2.2 主动学习方法的分类 88
6.3 三支决策主动学习 89
6.3.1 对冗余信息的删减 89
6.3.2 对无标签样本的区域划分 90
6.3.3 对不同区域样本的处理 91
6.3.4 算法描述 92
6.4 仿真实验与结果分析 95
6.4.1 数据集选择 95
6.4.2 实验方法 95
6.4.3 实验结果分析 96
6.5 本章小结 100
参考文献 100
第7章 邻域粗糙集主动学习方法 104
7.1 引言 104
7.2 邻域粗糙集基本理论 104
7.3 邻域粗糙集主动学习算法 106
7.3.1 算法思路 106
7.3.2 算法描述 109
7.4 仿真实验与结果分析 110
7.4.1 数据集与实验方法 110
7.4.2 结果与分析 111
7.5 本章小结 117
参考文献 118
第8章 决策熵增量学习方法 120
8.1 引言 120
8.2 粗糙集的基本概念 121
8.3 决策熵增量知识获取算法 123
8.3.1 算法复杂度分析 126
8.3.2 实例分析 126
8.4 仿真实验与结果分析 128
8.4.1 UCI数据集测试 128
8.4.2 KDDCUP99数据集测试 130
8.4.3 KDDCUP99数据集连续增量测试 130
8.5 本章小结 131
参考文献 131
第9章 MapReduce并行增量FP-Growth算法 133
9.1 引言 133
9.2 MapReduce编程模型与Hadoop平台 135
9.2.1 MapReduce编程模型 135
9.2.1 Hadoop平台介绍 136
9.3 MapReduce增量FP-Growth算法 138
9.3.1 增量学习 138
9.3.2 FP-Growth算法 139
9.3.3 MapReduce并行FP-Growth算法 140
9.3.4 MapReduce并行增量FP-Growth算法 141
9.4 仿真实验与结果分析 143
9.4.1 MapReduce并行增量FP-Growth算法单机效率测试 143
9.4.2 MapReduce并行增量FP-Growth算法集群效率测试 143
9.4.3 Mapreduce并行增量FP-Growth算法性能测试 146
9.5 本章小结 149
参考文献 149
0章 电信客户价值评价 151
10.1 引言 151
10.2 客户价值与评价 152
10.2.1 客户价值的概念 152
10.2.2 电信客户价值与评价 153
10.3 优势关系粗糙集的基本概念 155
10.4 领域及数据驱动的数据挖掘模型 156
10.4.1 数据驱动的数据挖掘 156
10.4.2 领域驱动的数据挖掘 157
10.4.3 面向领域的数据驱动的数据挖掘 158
10.5 领域及数据驱动的电信客户价值评价方法 159
10.5.1 电信客户价值评价的特征提取 159
10.5.2 电信客户价值评价流程 161
10.5.3 电信客户价值评价算法 162
10.6 仿真实验 163
10.6.1 算法效果验证 163
10.6.2 算法应用 165
10.7 本章小结 167
参考文献 167
1章 电信客户换机预测 171
11.1 引言 171
11.2 优势关系粗糙集换机预测方法 172
11.2.1 算法描述 172
11.2.2 仿真实验 174
11.3 数据驱动的电信客户换机预测方法 179
11.3.1 手机客户特征提取 179
11.3.2 算法描述 180
11.3.3 仿真实验 182
11.4 本章小结 185
参考文献 186
2章 电信客户流失预测 188
12.1 引言 188
12.2 C4.5决策树及其改进算法 189
12.2.1 C4.5决策树 189
12.2.2 改进C4.5决策树算法 190
12.3 改进C4.5决策树不平衡数据抽样方法 191
12.3.1 算法思路 191
12.3.2 算法描述 192
12.4 实验与结果分析 193
12.4.1 电信客户流失预测流程 194
12.4.2 实验数据选择 195
12.2.3 实验结果与分析 196
12.5 本章小结 198
参考文献 198