本书围绕大数据分析方法,阐述了大数据采集方法,大数据清洗方法,详细介绍了大数据存储方法,大数据分布式计算方法,大数据分析模型构建方法,大数据分析模型检验方法,大数据分析模型优化方法。全书提供了大量的案例,对程序进行了详细的分析和解读。本书的实用价值较高,对从事大数据分析的科研人员、研发人员具有一定的借鉴参考作用。
作者开展大数据分析项目研究方法的总结和归纳,内容极基实用
为什么要写本书
大数据时代,人们面对大数据,首先想到的是如何分析大数据,目前介绍大数据分析方法的书籍却不是很多。作者从事大数据分析研究工作多年,很想将做过的大数据研究课题积累的一些分析方法分享给各位读者。
本书组织结构
本书的结构依据大数据的处理构建的,包括:组织,依次为大数据采集处理方法、大数据存储方法、大数据分布式计算方法、大数据分析模型构建方法、大数据分析模型检验方法、大数据分析模型优化方法。
本书的主要内容
第1章介绍了大数据采集处理方法,重点介绍了如何从互联网上采集数据,介绍了网络爬虫程序的设计和编写方法以及数据清洗方法,着重介绍如何清洗机器学习训练数据。
第2章介绍了大数据存储方法,重点介绍了分布式文件存储系统的原理、配置方法与使用方法。重点介绍了分布式数据库Hbase原理、配置方法与使用方法。
第3章介绍了大数据分布式计算的实现方法,详细介绍了如何搭建Hadoop大数据处理平台,列举了详细的搭建过程,提供了Hadoop搭建所需的各种配置文件源代码,提供了构建Hadoop所需的命令语句。着重介绍了MapReduce框架结构,运行机理,MapReduce源代码分析,各种接口和类分析。本章给出了丰富的MapReduce示例,对示例进行详细的解读,读者可以模仿示例编写自己的MapReduce程序。
第4章介绍了大数据分析模型构建方法,主要介绍了如何通过机器学习方法构建大数据分析模型。
第5章介绍了大数据分析模型的检验方法,分析模型建立以后如何进行检验,这往往是一个难点,如何检验模型是否达到了最初设计标准,用什么手段来检验非常关键,检验方法是否科学都很重要。此章还介绍了机器学习构建模型常用的检验方法,如回归诊断、交叉验证等方法。
第6章重点介绍了模型建立以后,如何优化,介绍了几种优化方法,如逐步递归法、主成分分析优化方法等,特别介绍了通过神经网络进行优化。
本书的优势
本书的内容是作者从事科研项目的一些亲身经历,开展大数据分析项目研究方法的总结和归纳,内容非常实用,为从事大数据分析的研究人员提供了研究步骤和方法。本书的模式是提出问题,然后给出解决方法,这样读者如遇到类似问题就可以参考书中提供的方法加以解决。
本书的受众群体
本书的读者主要是从事大数据分析的研究人员,大数据分析系统开发人员,使用本书的人员应该在大数据分析方面有一定的基础,本书的内容比较深入,跳过了基本概念和基本理论,主要论述和探索大数据分析深层次的内容和方法。
致谢
本书是基于北京市教委科技计划一般课题:基于机器学习方法的房价大数据分析模型构建研究(课题编号:KM201610857002)研究内容编写的。
感谢项目组成员冀钢、刘瑞新、范美英对本项目做出的贡献。感谢参与和支持本项目的所有人员。感谢寇俊玲主编严谨和辛勤的工作。
陆红,副教授,北京信息职业技术学院技术应用研究所所长,多年从事计算机领域研究,主要研究方向:大数据、人工智能、软件技术。主持多项省部级课题,其中一项获教育部科技成果奖。编写多部著作,发表多篇相关领域的学术论文。作为多个部委专家,主持完成多个部委信息化建设标准制定工作。主持完成多个部委信息化建设项目。
目录
1大数据采集处理方法1
11爬虫程序设计方案1
12爬虫程序实现方法5
13数据清洗20
2大数据存储方法27
21分布式文件系统存储大数据27
211HDFS体系结构27
212HDFS数据存储方式28
213HDFS读写方式28
22分布式数据库存储大数据32
221Hbase体系结构32
222配置Hbase33
223Hbase表操作38
224访问Hbase数据资源44
3大数据计算方法50
31分布式计算平台构建方法50
32分布式计算框架构建方法60
33分布式计算程序设计方法63
4大数据分析模型构建方法78
41准备训练数据78
42机器学习路径和算法设计方法82
43数据可视化辅助建模方法88
44构建大数据分析模型91
5大数据分析模型检验方法108
51回归诊断108
52交叉验证113
6大数据分析模型优化方法117
61Feature Scaling优化法117
62逐步回归优化法118
63PCA主成分分析优化方法120
64神经网络优化大数据分析模型127
参考文献151