本书从大数据的采集、存储、计算、分析挖掘、可视化、应用和安全等角度,全面解析大数据技术原理及应用实践。在此基础上介绍大数据的技术架构和关键技术,结合应用实践,详细阐述了传统信息系统与大数据平台的整合策略,大数据应用实践的流程和方法,并介绍了主要的大数据应用产品和解决方案。
在未来5~10年,我国大数据市场规模年均增速将超过30%。未来5年,国内大数据人才缺口将突破150万。在BAT发布的招聘职位中,目前大数据岗位占比已经超过60%。现在业界有一种观点:即使把全国所有计算机专业都做成大数据专业,仍然无法满足国内对大数据人才的需求量。
在快速膨胀的需求与国家扶植政策的推动下,全国高校、高职、高专院校纷纷启动大数据人才培养计划。然而,大数据专业建设却面临重重困难。首先,大数据是个新生事物,懂大数据的老师少之又少,院校缺“人”;其次,尚未形成完善的大数据人才培养和课程体系,院校缺“机制”;再次,大数据实验需要为每位学生提供集群计算机,院校缺“机器”;最后,院校不拥有海量数据,开展大数据教学科研工作缺“原材料”。
其实,在2000年网格计算兴起时和2008年云计算兴起时,我国科技工作者都曾遇到过类似的挑战问题,我有幸参与了这些问题的解决过程:
为了解决网格计算挑战问题,我在清华大学读博期间,于2001年创办了中国网格信息中转站(chinagrid.net)网站,每天花好几个小时收集和分享有价值的资料给学术界。于2002年与人合作出版了《网格计算》教材。并多次筹办和主持全国性的网格计算学术会议。
为了解决云计算挑战问题,我于2008年创办了中国云计算(chinacloud.cn)网站,于2010年出版了《云计算(第一版)》、2011年出版了《云计算(第二版)》、2015年出版了《云计算(第三版)》,每一版都花费大量成本制作并免费分享对应的几十个教学PPT。这些PPT的下载总量达到了几百万次之多。早在2010年,我就在南京组织了全国高校云计算师资培训班,培养了国内第一批云计算老师。并通过与华为、中兴、360等知名企业合作,输出云计算技术,培养云计算研发人才。为社区做贡献,收获是沉甸甸的:我获得了大家的好评与认可,担任了一些全国性专家委员会的专家,《云计算》教材成了国内高校的首选教材,中国云计算网站成了国内排名第一的云计算网站。
近几年,我用类似的办法来解决我们所面临的大数据挑战问题。为了解决大数据技术资料缺乏和存在交流障碍的问题,我于2013年创办了中国大数据(thebigdata.cn)网站,投入大量的人力每天维护,该网站已经在各大搜索引擎排名“大数据”关键词第一名;为了解决大数据师资匮乏的问题,我面向全国院校,陆续举办多期大数据教师培训班。最近在南京举办的全国高校/高职/中职大数据免费培训班,报名的老师已有400多位;为了解决缺乏权威大数据教材的问题,我所负责的南京大数据研究院,联合金陵科技学院、河南大学、南阳理工学院、南阳理工学院、云创大数据、许昌学院、安徽师范大学、才云科技、中国地震局、南京公安研究院等多家单位,历时两年,编著了《大数据》教材和《大数据库》教材。并计划为高职和中职院校专门编写大数据专业系列教材。我们将在中国大数据(thebigdata.cn)、中国云计算(chinacloud.cn)和刘鹏看未来(lpoutlook)微信公众号等陆续免费提供配套PPT和其他资料;为了解决大数据实验难以开展的问题,我带领云创大数据(www.cstor.cn)的科研人员,研发成功BDRack大数据实验一体机,它打破虚拟化技术的性能瓶颈,可以为每一位参加实验的人员虚拟出Hadoop集群、Spark集群、 MongoDB集群、Storm集群等,自带实验所需数据,并准备了详细的实验手册、PPT和视频,可以开展大数据管理、大数据挖掘等各类实验,并可进行精确营销、信用分析等多种实战演练。目前该平台已经在郑州大学等高校成功应用。我们还开放了免费的物联网大数据托管平台——万物云(wanwuyun.com)和环境大数据免费分享平台——环境云(envicloud.cn)
在此,特别感谢我的硕士导师谢希仁教授和博士导师李三立院士。谢希仁教授出版的《计算机网络》已经更新到第6版,与时俱进且日臻完美,时时提醒学生要以这样的标准来写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划项目首席科学家。他的严谨治学带出了一大批杰出的学生。
本书是集体智慧的结晶,在此谨向付出辛勤劳动的各位作者致敬!书中难免会有不当之处,务必读者不吝赐教。我的邮箱:gloud@126.com,微信公众号:刘鹏看未来(lpoutlook)。
刘鹏 教授
于南京大数据研究院
2016年12月24日
刘鹏,清华大学博士,解放军理工大学教授、学科带头人,中国云计算专家委员会委员。主要研究方向为信息网格和云计算,完成科研课题18项,发表论文70余篇,获部级科技进步奖6项。曾夺得国际计算机排序比赛冠军,并二次夺得全国高校科技比赛*高奖,获“全军十大学习成才标兵”、“南京十大杰出青年”和“清华大学学术新秀”等称号。2002年首倡的“网格计算池”和2003年研发的“反垃圾邮件网格”分别为云计算和云安全的前身。创办了知名的中国网格和中国云计算网站。