数据作为企业的一种资产的观念在大数据时代愈发明确。本书结合Python在数据分析领域的特点,介绍如何在数据平台上的集成使用Python。全书内容可以分为3大部分。第一部分从第一章到第三章中是准备工作,搭建开发环境和导入测试数据;第二部分从第四章到第十二章是Python对HDFS、Hive、Pig、HBase、Spark的操作,主要对常用API的说明使用;第三部分从第十三章到第十六章,在第二部分的基础上进行数据的分析、挖掘、可视化。本书学习的前提条件是对Python有一点基础,并能够使用Linux。本书适合对大数据、人工智能等感兴趣的读者阅读。
资深软件工程师,项目经理。对Python大数据、人工智能、深度学习等有深入研究,实施开发项目涉及各个领域,包括国内各大房地产商、金融企业、政府机关。曾经参与的项目包括:唯思软件 - 客户端开方工程师、VS游戏对战平台客户端开发、广州嘉为科技 - 高级软件开发师、深圳海关数据仓库运维开发项目、万科地产主数据项目、广州时代地产主数据项目、金地地产主数据项目、深圳长城开发科技基础构架自动化项目、中信保诚自动化运维工单化项目、法本信息 - 大数据工程师、广发证券大数据应用分析项目等。
第一章 为什么选择用Python11.1 易于使用3
1.2 兼容Hadoop3
1.3 可扩展和灵活性3
1.4 良好的社区支持和开发环境3
1.5 在数据分析领域的优势4
1.6 总结4
第二章 大数据开发环境的搭建52.1 安装大数据集成环境HDP6
2.2 安装Spark环境(Windows)9
2.3 自行安装大数据开发环境10
2.4 总结21
第三章 构建分析数据223.1 分析数据的说明23
3.2 导入数据到HDP SandBox中25
3.3 导入自安装的环境中使用28
3.4 导入Windows的Spark中29
3.5 导入 Northwind 数据库30
3.6 总结32
第四章 Python对Hadoop的操作334.1 Snakebite的说明34
4.2 HDFS命令说明36
4.3 Snakebite Client类的使用38
4.4 Snakebite CLI的使用40
4.5 总结42
第五章 Python对Hive的操作435.1 Hive说明44
5.2 使用PyHive47
5.3 使用Python编写Hive UDF49
5.4 Impyla的使用51
5.5 Hive SQL调优方法52
5.6 总结53
第六章 Python对HBase的操作546.1 HBase说明55
6.2 HBase Shell命令57
6.3 HappyBase说明62
6.4 HappyBase的使用66
6.5 总结70
第七章 Python集成到Pig717.1 Pig说明72
7.2 Pig Latin的使用74
7.3 Python Pig的整合78
7.4 总结81
第八章 PySpark Shell应用838.1 操作步骤84
8.2 应用对象84
8.3 Spark核心模块86
8.4 Spark Shell的使用87
8.5 PySpark Shell的使用92
8.6 总结95
第九章 PySpark对RDD操作969.1 Spark RDD说明97
9.2 RDD API说明101
9.3 在API函数中使用Lambda表达式108
9.4 从HDFS中读取数据并以SequenceFile格式存储110
9.5 读取CSV文件处理并存储112
9.6 读取Json文件处理114
9.7 通过RDD计算圆周率115
9.8 查看RDD计算的状态116
9.9 总结118
第十章 PySpark对DataFrame的操作11910.1 Spark DataFrame说明120
10.2 DataFrame API总述122
10.3 DataFrame数据结构API126
10.4 DataFrame数据处理API140
10.5 Postgresql和DataFrame145
10.6 CSV和DataFrame147
10.7 Json和DataFrame149
10.8 Numpy、Pandas和DataFrame151
10.9 RDD和DataFrame152
10.10 HDFS和DataFrame153
10.11 Hive和DataFrame154
10.12 HBase和DataFrame155
10.13 总结157
第十一章 PySpark对Streaming的操作15811.1 Spark Streaming说明159
11.2 Spark Streaming API160
11.3 网络数据流165
11.4 文件数据流167
11.5 Kafka数据流171
11.6 Flume数据流173
11.7 QueueStream数据流174
11.8 使用StreamingListener监听数据流175
11.9 总结177
第十二章 PySpark SQL17812.1 关于Spark SQL179
12.2 Spark SQL相关API180
12.3 Spark SQL使用步骤189
12.4 Postgresql和Spark SQL190
12.5 CSV和Spark SQL192
12.6 Json和Spark SQL193
12.7 HDFS和Spark SQL194
12.8 Hive和Spark SQL195
12.9 UDF和Spark SQL197
12.10 Streaming和Spark SQL199
12.11 Spark SQL优化200
12.12 总结201
第十三章 分析方法及构架的说明20213.1 统计的概念和数据可视化203
13.2 数据分析方法的探讨206
13.3 开发构架说明209
13.4 总结整合说明210
第十四章 集成分析21414.1 SQL窗口函数的说明215
14.2 Hive SQL分析221
14.3 Spark SQL分析225
14.4 HBase SQL分析229
14.5 对接Numpy、Pandas的分析232
14.6 对接Blaze分析241
14.7 总结244
第十五章 数据挖掘24515.1 关于机器学习246
15.2 PySpark机器学习包248
15.3 特征的抽取、转换和选择250
15.4 PySpark机器学习包的使用256
15.5 集成TensorFlow277
15.6 集成scikit-learn279
15.7 总结282
第十六章 数据可视化28316.1 标签云284
16.2 Zeppelin的使用289
16.3 Mathplotlib的使用293
16.4 Superset的使用301
16.5 总结308