本书较为全面地介绍了大数据相关技术和应用的现状。全书共7章:第1章主要介绍大数据的基础概念;第2章和第3章对主流大数据框架从不同侧面进行了分析对比;第4章主要介绍了信息挖掘中的经典算法(C4.5、kmeans、支持向量机、Apriori、EM、PageRank、AdaBoost、Naive Bayes、CART);第5章内容为数据的可视化;第6章涉及大数据与人工智能的联系;第7章介绍大数据在现实生活中的实际用例。本书既可作为学生教材,也可供大数据技术爱好者阅读参考。
辛阳,男,博士,北京邮电大学信息安全中心副教授。长期从事信息安全及灾备领域研究工作,主要涉及电信网安全、下一代网络安全、移动通信安全、存储灾备技术等,主持及参与过国家863计划、国家发改委信息安全专项等近20项国家级及省部级项目。申请专利30多项,软件著作权12项,出版网络安全书籍5本,主导国家灾备标准四项的编写工作。
目录第1章绪论1
1.1什么是大数据1
1.2大数据的特征2
1.3大数据分析的发展情况3
1.4大数据的相关政策4
第2章面向大数据的分布式存储系统5
2.1Bigtable5
2.1.1Bigtable构件5
2.1.2Bigtable实现7
2.1.3Tablet7
2.1.4Bigtable优化10
2.1.5Bigtable性能13
2.1.6实际应用14
2.2Google File System16
2.2.1GFS框架16
2.2.2Master节点17
2.2.3Chunk数据块18
2.2.4元数据18
2.2.5系统交互20
2.2.6容错和诊断22
2.3Dynamo23
2.3.1系统架构24
2.3.2系统实现28
2.3.3故障处理29
2.4小结30
第3章面向大数据的分布式处理框架31
3.1Hadoop31
3.1.1概述31
3.1.2实现运行32
3.1.3实际应用32
3.2MapReduce34
3.2.1MapReduce实现34
3.2.2MapReduce的实际应用37
3.3Spark38
3.3.1概述38
3.3.2RDD38
3.3.3Spark处理框架39
3.3.4Spark在实际中的应用40
3.4小结41
第4章面向大数据信息挖掘的算法42
4.1C4.542
4.1.1算法描述43
4.1.2算法特性46
4.1.3软件实现48
4.1.4应用示例48
4.1.5相关研究50
4.1.6小结51
4.2kmeans52
4.2.1算法描述52
4.2.2软件实现55
4.2.3应用示例55
4.2.4相关研究58
4.2.5小结59
4.3支持向量机59
4.3.1支持向量分类器60
4.3.2支持向量分类器的软间隔优化61
4.3.3核技巧62
4.3.4理论基础64
4.3.5支持向量回归器66
4.3.6软件实现67
4.3.7相关研究67
4.3.8小结69
4.4Apriori70
4.4.1算法描述70
4.4.2挖掘序列模式74
4.4.3软件实现76
4.4.4应用示例77
4.4.5相关研究79
4.4.6小结84
4.5EM85
4.5.1引言85
4.5.2算法描述86
4.5.3软件实现86
4.5.4应用示例87
4.5.5相关研究88
4.5.6小结89
4.6PageRank90
4.6.1算法描述91
4.6.2扩展:TimedPageRank94
4.6.3小结95
4.7AdaBoost95
4.7.1算法描述96
4.7.2软件实现99
4.7.3应用示例99
4.7.4相关研究103
4.7.5小结104
4.8k最近邻104
4.8.1算法描述105
4.8.2软件实现107
4.8.3相关研究107
4.8.4小结108
4.9Naive Bayes108
4.9.1算法描述108
4.9.2独立变量110
4.9.3模型扩展111
4.9.4软件实现113
4.9.5应用示例113
4.9.6相关研究115
4.9.7小结116
4.10分类和回归树算法116
4.10.1算法描述116
4.10.2深度讨论118
4.10.3软件实现120
4.10.4相关研究121
4.10.5小结121
第5章数据可视化122
5.1基本可视化图表122
5.2示例125
5.2.1全国就业和薪酬分析126
5.2.22015年国内外搜索分析128
5.3可视化工具131
5.4D3.js133
5.4.1简介133
5.4.2搭建一个简易的D3开发环境134
5.4.3如何深入学习D3.js134
第6章大数据与人工智能136
6.1什么是深度学习1