全书共十个项目,除了项目一介绍大数据基础理论外,其余项目均以实战为主线,内容循序渐进,逐步深入,围绕大数据技术的应用层层展开。内容主要包括大数据的基本概念、Ubuntu及服务安装配置、Hadoop集群部署、MapReduce编程、HBase数据库部署与应用、Hive数据仓库安装与应用、Pig数据分析、Sqoop数据迁移、Spark部署及数据分析等知识,最后以大数据技术的具体应用介绍了MapReduce大数据编程、Mahout的K-Means计算、决策树和随机森林的分类预测、频繁项集运算和关联分析等知识。本书秉承“实践为主、理论够用,注重实用”原则,将实验环节及实操内容融入各个知识点与课程教学中,以便读者能更好地学习和掌握大数据关键技术。
内容基础、案例简单、实操性强、举一反三;
将实验环节及实操内容融入到各个知识点与课程教学中;
以项目实战为主线,循序渐进,逐步深入。
李俊杰,双师型骨干教师,华中科技大学软件工程硕士,汕尾职业技术学院云计算技术与应用教研室主任,汕尾市创新工业设计研究院云计算与数据中心工程设计研究所首席技术专家,广东省高等教育学会高职高专云计算与大数据专业委员会秘书处干事。从事计算机相关专业教学和教科研工作十多年,培养和辅导学生参加省级、***云计算和大数据比赛多次获奖。
项目一 走进大数据 1
任务1 概述大数据的内涵 2
任务2 关注大数据的影响 6
任务3 认识常见的大数据计算模式 11
任务4 厘清大数据处理的基本流程 14
任务5 大数据应用大显神通 15
任务6 大数据的发展及面临的挑战 18
【同步训练】 22
项目二 Ubuntu及服务安装配置 23
任务1 安装Ubuntu Server 24
任务2 搭建FTP系统 33
任务3 搭建MySQL数据库系统 37
任务4 安装Ubuntu Desktop 41
【同步训练】 47
项目三 Hadoop集群部署 48
任务1 构建集群系统 49
任务2 SSH证书登录 54
任务3 Hadoop部署与使用 56
【同步训练】 76
项目四 MapReduce编程 77
任务1 搭建MapReduce开发平台 78
任务2 编写单词计数程序 82
任务3 编写气象数据分析程序 96
【同步训练】 111
项目五 HBase数据库部署与应用 112
任务1 HBase部署 113
任务2 HBase Shell 125
任务3 HBase编程 136
任务4 MapReduce与HBase集成 144
【同步训练】 154
项目六 Hive数据仓库安装与应用 155
任务1 安装Hive 155
任务2 Hive CLI 168
任务3 Hive编程 182
任务4 Hive与HBase集成 186
【同步训练】 187
项目七 Pig数据分析 188
任务1 Pig安装及使用 188
任务2 Pig高级编程 200
【同步训练】 209
项目八 Sqoop数据迁移 210
任务1 Sqoop安装及MySQL与HDFS数据迁移 210
任务2 MySQL与Hive/HBase数据转移 216
【同步训练】 218
项目九 Spark部署及数据分析 219
任务1 Spark部署 220
任务2 Spark数据分析 229
任务3 Spark编程 241
【同步训练】 252
项目十 大数据综合实例编程 253
任务1 MapReduce大数据处理 254
任务2 Mahout的K-Means计算 266
任务3 决策树和随机森林的分类预测 272
任务4 频繁项集计算与关联分析 287
【同步训练】 297
参考文献 298
收起全部↑