本书围绕大数据预处理业务背景及相关技术,以学习情境的方式,首先介绍了使用 Python、Pandas对各种数据源的读写,然后介绍了数据的清洗、集成、规约、变换四个处理数据方式,最后介绍了使用Kettle工具和MapReduce编程对数据进行处理的技术,通过理论结合实际、循序渐进的学习方式,让读者学习并掌握大数据预处理技术及应用。本书理论分析相对较少,侧重动手实践,适合应用型本科、高职高专大数据技术专业学生和希望快速进入大数据领域的读者参考使用。
蔡茜,国家"双高计划”高水平专业群建设小组核心成员,国家级职业教育教师教学创新团队核心成员,重庆工商职业学院专业带头人、骨干教师。曾获全国职业院校信息化教学大赛网络课程一等奖、省部级教学成果奖二等奖、三等奖各一项;主持省部级一流课程1门;主持省部级级教改项目2项。作为主编编写教材6本,其中获"十二五”规划教材1本、重庆市重点建设教材1本。公开发表EI检索论文5篇、中文核心论文2篇;主持省部级教委科研项目1项,主研市级科研项目3项;授权实用新型专利5项。
导 言
单元1 数据读写
学习情境1 使用Python读写职业能力大数据分析平台【岗位】数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
学习情境2 使用Pandas读写职业能力大数据分析平台【技能】数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元2 数据清洗
学习情境3 使用正则表达式从网页中提取招聘联系人的邮箱地址
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
学习情境4 使用Pandas对职业能力大数据分析平台【工资】表进行清洗
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元3 数据集成
学习情境5 使用Pandas实现对职业能力大数据分析平台多个学生信息
数据源进行集成
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元4 数据规约
学习情境6 使用NumPy+Pandas实现对工资数据进行数量规约
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元5 数据变换
学习情境7 使用Pandas+Sklearn对学生成绩实现数据规范化
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元6 Kettle工具使用
学习情境8 使用ETL工具Kettle对职业能力大数据分析平台学生信息
数据进行清洗
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
单元7 MapReduce数据处理
学习情境9 使用MapReduce合并职业能力大数据分析平台【技能】数据
学习情境描述
学习目标
任务书
获取信息
工作计划
进行决策
知识准备
相关案例
工作实施
评价反馈
拓展思考
参考文献