本书对大数据分析的原理与Python程序实现进行了系统的介绍,每种算法都采用sklearn和Matplotlib分别进行程序实现及数据可视化。本书共8章,内容包括大数据分析概述、Python数据分析与可视化基础、关联规则与推荐算法、聚类算法及其应用、分类算法及其应用、回归与逻辑回归、人工神经网络、支持向量机等。
本书在理论上突出可读性,在实践上强调可操作性,实践案例丰富,实用性强。随书提供微课视频(正文对应处扫码可观看)、教学课件、习题答案、教学大纲等教学资源。
本书可作为高等院校相关专业大数据分析或大数据概论等课程的教材。也可供从事大数据分析、机器学习的人员作为参考书。
目录
出版说明
前言
第1章 大数据分析概述1
1.1 大数据概述1
1.1.1 大数据的定义和特征1
1.1.2 大数据处理的过程2
1.1.3 大数据的职业岗位4
1.2 云计算—大数据的处理架构4
1.2.1 云计算的定义和特点4
1.2.2 云计算的体系结构6
1.2.3 云计算的分类7
1.2.4 虚拟化技术9
1.3 Hadoop大数据处理平台11
1.3.1 Hadoop的发展历史及版本11
1.3.2 HDFS的组成13
1.3.3 HDFS读取和写入文件15
1.3.4 MapReduce并行编程框架16
1.3.5 YARN资源管理器19
1.3.6 Hadoop生态系统及其安装22
1.4 NoSQL数据库24
1.5 大数据分析技术26
1.5.1 大数据分析的方法26
1.5.2 大数据分析的种类27
1.5.3 大数据分析的层次28
1.5.4 大数据分析的工具29
1.5.5 大数据分析面临的挑战29
1.5.6 大数据分析的数据类型30
习题与实验31
第2章 Python数据分析与可视化基础34
2.1 Python程序入门34
2.1.1 一些简单的Python程序34
2.1.2 序列数据结构36
2.1.3 序列处理函数37
2.1.4 函数和类38
2.2 Python数据分析工具41
2.2.1 Anaconda的使用41
2.2.2 Spyder集成开发环境42
2.2.3 numpy库42
2.3 数据可视化—基于Matplotlib库45
2.3.1 绘制曲线图46
2.3.2 绘制散点图等其他图形50
2.4 SciPy库54
2.5 sklearn库56
2.5.1 机器学习的概念和方法56
2.5.2 样本及样本的划分58
2.5.3 导入或创建数据集62
2.5.4 数据预处理65
2.5.5 数据的降维68
2.5.6 调用机器学习模型70
习题与实验71
第3章 关联规则与推荐算法73
3.1 关联规则挖掘73
3.1.1 基本概念73
3.1.2 Apriori算法75
3.1.3 Apriori算法的程序实现79
3.1.4 FP-Growth算法80
3.2 推荐系统及算法83
3.2.1 协同过滤推荐算法84
3.2.2 协同过滤推荐算法应用实例86
3.2.3 推荐算法的MapReduce实现89
3.2.4 协同过滤算法的sklearn实现91
习题与实验94
第4章 聚类算法及其应用96
4.1 聚类的原理与实现96
4.1.1 聚类的概念和类型96
4.1.2 如何度量距离96
4.1.3 聚类的基本步骤99
4.2 层次聚类算法103
4.2.1 层次聚类法举例103
4.2.2 层次聚类法sklearn实现104
4.3 K-means聚类算法108
4.3.1 K-means聚类算法原理和实例108
4.3.2 K-means聚类算法的sklearn
实现114
4.4 K-medoids聚类算法115
4.4.1 K-medoids聚类算法原理和实例115
4.4.2 K-medoids聚类算法的sklearn
实现120
4.5 DBSCAN聚类算法121
4.5.1 DBSCAN聚类算法原理和实例121
4.5.2 DBSCAN聚类算法的sklearn
实现125
习题与实验126
第5章 分类算法及其应用128
5.1 分类的基本原理128
5.1.1 分类与聚类的区别128
5.1.2 分类的步骤129
5.1.3 分类模型预测结果的评估131
5.1.4 sklearn库的常用分类算法132
5.2 K-近邻分类算法133
5.2.1 K-近邻分类算法原理和实例133
5.2.2 sklearn中分类模型的编程步骤136
5.2.3 K-近邻分类算法的sklearn实现138
5.2.4 绘制分类边界图139
5.2.5 确定最优的k值141
5.3 朴素贝叶斯分类算法142
5.3.1 朴素贝叶斯原理与实例143
5.3.2 朴素贝叶斯分类的常见问题146
5.3.3 朴素贝叶斯分类算法的sklearn
实现147
5.4 决策树分类算法149
5.4.1 信息论基础150
5.4.2 ID3算法153
5.4.3 C4.5算法157
5.4.4 CART算法160
5.4.5 决策树分类算法的sklearn程序
实现162
5.5 随机森林分类算法163
5.5.1 集成学习理论163
5.5.2 随机森林分类的理论与实例165
5.5.3 随机森林分类算法的sklearn
实现169
习题与实验172
第6章 回归与逻辑回归174
6.1 线性回归174
6.1.1 相关与回归174
6.1.2 线性回归分析175
6.1.3 线性回归方程参数的求法177
6.1.4 线性回归模型的sklearn实现181
6.2 逻辑回归185
6.2.1 线性分类模型的原理185
6.2.2 逻辑回归模型及实例187
6.2.3 逻辑回归模型的sklearn实现190
习题与实验195
第7章 人工神经网络196
7.1 神经元与感知机196
7.1.1 人工神经元与逻辑回归模型197
7.1.2 感知机模型197
7.1.3 感知机模型的Python实现199
7.1.4 多层感知机模型201
7.2 人工神经网络的核心要素203
7.2.1 神经元的激活函数203
7.2.2 损失函数205
7.2.3 网络结构206
7.2.4 反向传播207
7.2.5 人工神经网络的sklearn实现209
7.3 深度学习与深度神经网络213
7.3.1 深度学习的概念和原理213
7.3.2 TensorFlow概述214
7.3.3 卷积神经网络215
习题与实验217
第8章 支持向量机219
8.1 支持向量机的理论基础219
8.1.1 支持向量的超平面220
8.1.2 支持向量机间隔及损失函数221
8.1.3 非线性支持向量机与核函数226
8.1.4 支持向量机分类的步骤227
8.2 支持向量机的sklearn实现228
8.2.1 绘制决策边界229
8.2.2 绘制支持向量机的分类界面230
8.2.3 支持向量机参数对性能的影响231
习题与实验236
参考文献238