本书以项目案例为导向,贯穿讲解一个大数据的实战项目:广电大数据用户画像。全书共8章,具体内容包括大数据项目概述、Hadoop生态组件基础、广电大数据用户画像需求分析、广电大数据用户画像数据采集与预处理、广电大数据用户画像实时统计订单信息、广电大数据用户画像用户标签计算与可视化、广电大数据用户画像任务调度实现、基于TipDM大数据挖掘建模平台实现广电大数据用户画像。本书从项目需求探索、技术选型、架构设计、集群安装部署与集成开发以及项目开发进行实战讲解,有助于读者综合运用大数据技术知识和各种工具软件,实现大数据项目开发全流程操作。
本书可以作为高校大数据技术类专业的大数据项目实训课程的教材,也可以作为大数据技术爱好者的自学用书。
1. 以任务为导向,实现大数据项目开发全流程操作
2. 随书附带案例数据及代码,方便读者系统学习并动手实践
3. 实现企业实际项目,综合性强
4. 包括数据采集、数据分析、数据存储、数据可视化等多个模块
祝锡永,男,现为浙江理工大学管理科学与工程教授,管理科学与工程系主任,信息管理与信息系统专业负责人,国家级双万一流专业建设点负责人。主讲课程:数据库原理与应用、软件开发工具、管理信息系统、数据挖掘与应用。主要研究方向:信息系统开发工具与技术、数据库技术、知识管理与商务智能
张良均,资深大数据专家,广东泰迪智能科技股份有限公司董事长,国家科技部入库技术专家,全国专业学位水平评估专家,工信部教育与考试中心入库专家,中国工业与应用数学学会理事,广东省工业与应用数学学会副理事长,广东省高等职业教育教学指导委员会委员,华南师范大学、中南财经政法大学等40余所高校校外硕导或兼职教授,泰迪杯全国数据挖掘挑战赛发起人。曾在国内外重要学术刊物上发表学术论文10余篇,主导编写图书专著60余部,其中获普通高等教育十一五规划教材一部,十三五职业教育国家规划教材一部;参与标准建设4项,主持国家级课题1项、省部级课题4项。获得SAS、SPSS数据挖掘认证及Hadoop开发工程师证书,具有信访、电力、电信、银行、制造企业、电子商务和电子政务的项目经验和行业背景,并荣获中国产学研合作促进奖、中国南方电网公司发明专利一等奖、广东省农业技术推广二等奖、广州市荔湾区科学技术进步奖。
第 1章 大数据项目概述 1
学习目标 1
1.1 企业大数据项目简介 1
1.1.1 数据处理流程 1
1.1.2 架构分析 2
1.1.3 人员安排 5
1.2 大数据项目实战基础 5
1.2.1 实战环境 5
1.2.2 涉及的技术及需掌握的能力 11
小结 20
第 2章 Hadoop生态组件基础 21
学习目标 21
2.1 Hadoop基础 21
2.1.1 Hadoop概述 21
2.1.2 Hadoop集群安装与配置 25
2.1.3 Hadoop框架组成 36
2.1.4 Hadoop应用实践 42
2.2 Hive基础 45
2.2.1 Hive概述 45
2.2.2 Hive安装与配置 46
2.2.3 Hive体系架构 50
2.2.4 Hive应用实践 54
2.3 Spark基础 58
2.3.1 Spark概述 59
2.3.2 Spark集群安装与配置 63
2.3.3 Spark集群架构 66
2.3.4 Spark应用实践 67
小结 69
第3章 广电大数据用户画像需求分析 70
学习目标 70
3.1 项目需求 70
3.1.1 项目背景 70
3.1.2 项目目标 71
3.2 需求探索 71
3.2.1 数据说明 71
3.2.2 基础探索 76
3.2.3 业务需求探索 84
3.3 技术方案 96
3.3.1 技术选型 96
3.3.2 系统架构 98
小结 99
第4章 广电大数据用户画像数据采集与预处理 101
学习目标 101
4.1 业务数据 101
4.1.1 生产数据来源 101
4.1.2 模拟产生业务数据 102
4.2 数据存储与传输 119
4.2.1 Elasticsearch数据传输到Hive 119
4.2.2 用户画像标签结果保存到MySQL 133
4.3 基础数据预处理 135
小结 141
第5章 广电大数据用户画像实时统计订单信息 142
学习目标 142
5.1 实时统计目标 142
5.2 Kafka安装和配置 142
5.3 实时统计订单信息 144
5.3.1 模拟产生订单实时数据流 144
5.3.2 Spark Streaming实时统计订单信息 146
小结 151
第6章 广电大数据用户画像用户标签计算与可视化 152
学习目标 152
6.1 SVM预测用户是否值得挽留 152
6.1.1 SVM算法 152
6.1.2 构建特征列和标签列数据 153
6.1.3 建立SVM模型 159
6.1.4 模型评估 160
6.1.5 模型预测 161
6.1.6 整体实现及参数封装 163
6.2 用户画像 168
6.2.1 用户画像概述 169
6.2.2 标签计算 170
6.2.3 用户画像工程实现 179
6.3 用户画像可视化 188
6.3.1 用户画像可视化简介 188
6.3.2 可视化工程实现 188
6.3.3 结果展示 192
小结 195
第7章 广电大数据用户画像任务调度实现 196
学习目标 196
7.1 调度策略 196
7.2 调度实现 199
小结 227
第8章 基于TipDM大数据挖掘建模平台实现广电大数据用户画像 229
学习目标 229
8.1 平台简介 229
8.1.1 模板 230
8.1.2 数据空间 231
8.1.3 我的项目 232
8.1.4 系统组件 232
8.1.5 个人组件 234
8.1.6 访问TipDM大数据挖掘建模平台的方式 234
8.2 广电大数据用户画像开发 234
8.2.1 数据源配置 236
8.2.2 数据探索 238
8.2.3 数据处理 239
8.2.4 用户画像 241
小结 249