本书系统阐述了Hadoop大数据技术应用实践的原理、方法和应用相关知识,同时给出了每一章内容对应的实现指令或源程序。全书共九章内容。内容由浅入深,分为基础篇及提高篇两部分,其中第1章到第4章为基础篇,内容涵盖Hadoop初识简介、Hadoop基础环境搭建、分布式存储HDFS介绍以及MapReduce编程模型等知识,提高篇包括Hadoop数据仓库Hive、Hadoop数据库Hbase、Pig语言、Hadoop项目案例以及Mahout项目案例等较深入的知识。本书理论结合实际,每一个章节都包含有相关内容的实践部分,以便读者在了解相关知识后,能及时进行项目的实践,有助于提高读者动手实践的能力。每章提供适量习题,进一步加深对内容的理解。
前 言
大数据时代的到来,改变了许多行业的人才需求模式,大数据方面的人才成为各信息产业尤其是IT行业的热门人才。许多高等院校已经新增大数据技术相关专业,部分院校成立了大数据学院,标志着进行大数据技术人才培养已经正式纳入高等教育的培养需求。基于Hadoop架构搭建大数据分析环境是培养大数据人才的基本要求,《Hadoop大数据技术应用实践》教材可作为大数据技术相关专业本科生及高职院校相关专业实践类的教材,以为培养大数据技术相关人才打下坚实的基础。
培养技术型及实践型人才是大数据时代教育部对大数据技术相关人才的基本要求,也是各信息产业对人才的基本需求。编写本书的目的就是要让大数据技术相关专业学生通过本课程的学习,了解大数据技术的基础知识,掌握基于Hadoop环境搭建大数据分析架构的基本流程及实现过程,提高学习本课程的兴趣,培养解决实际问题的能力。
本书最大的特色就是实践性较强,在阐述大数据技术相关基础知识的同时,辅以大量实践内容及项目实例,培养了学生的学习兴趣,可极大提高学生的动手能力。克服了许多教材注重理论缺少实践内容的弊端。学生们可在课后,自己进一步动手实践,提高了学生的学习效率。
本书主要以大数据技术及计算机相关专业的本科生及高职院校学生为读者对象,注重大数据技术相关基础知识,尤其是实践环节的描述,避免了繁琐的理论知识介绍。全书共包括9章,第1章是Hadoop初识简介,第2章是Hadoop相关开源项目及伪分布式环境安装,第3章是分布式存储HDFS,第4章是MapReduce编程模型,第5章是Hadoop数据仓库Hive,第6章是Hadoop数据库HBase,第7章是Pig语言,第8章是Hadoop项目案例,第9章是Mahout项目案例。附录部分是本书中出现过的专业名词缩写、全拼及中文解释,按照英文字母顺序排列,供大家学习时参考。
第1章到第4章属于Hadoop基础知识部分,在搭建Hadoop架构时是必备的知识,第5章到第9章是提高部分,实际中可根据应用需要选择学习。本书可以用作工科高校相关专业32-40学时的课程教程,其中第7章Pig语言及第9章Mahout项目案例可作为选学内容。
本书由太原理工大学李凤莲教授、北京红亚华宇科技有限公司郑洪宾CEO任主编,由太原理工大学李彦民、辽宁大学冯勇、中国地质大学吴湘宁、青海警官职业学院张志强、江苏安全学院黄健任副主编,具体分工是:由冯勇、吴湘宁、张志强、黄健参与教材整体框架设计,由北京红亚华宇科技有限公司提供实训素材,由李凤莲教授完成教材第1,2,3,4,5,6,8及9章的编写,太原理工大学李彦民完成教材第7章及附录的编写。本书在编写及校对过程中,特别是项目实践内容验证过程中,得到了北京红亚华宇科技有限公司以及太原理工大学信息与计算机学院数字音视频技术研究中心大数据课题组硕士生的大力帮助,在此表示衷心感谢。
由于编著者水平有限,书中难免存在错误之处,敬请读者批评指正。
太原理工大学信息与计算机学院教师,博士,教授,硕士生导师。2012年以来,主持和参与山西省自然科学基金、博士后基金(面上资助)项目、山西省科技重大专项、山西省科技攻关计划项目以及校教改项目等多项;获批2017年教育部产学合作红亚科技协同育人项目1项;为2013年科技部重点领域创新团队核心成员; 2015年获山西省科技进步二等奖一项,2016年获煤炭工业协会三等奖一项。在Information Sciences等刊物发表SCI及EI收录学术论文30余篇;获批授权国家发明专利3项;申请国家发明专利9项,2016年以第一副主编参与编写“十二五”规划教材《数字语音处理及Matlab仿真》一部,2013年副主编参与编写部委级规划教材《电路分析基础》1部;2010年参编两本部委级规划教材,指导研究生14名。
承担课程:《电路分析基础》、《可编程控制器原理》、《现代信号处理理论与方法》、《大数据技术与应用》