本书从数据查询、数据分析和迭代计算平台3个方面对大数据处理平台的体系结构、基本原理、主流技术、国内外研究进展和成果进行了全面、深入的阐述,对大数据实时处理平台的架构和核心技术进行了展望。企业技术人员可参考本书选择合适的技术构建大数据处理平台或对现有平台进行优化;高校院所的科研人员可参考本书了解大数据管理的基本原理和现有研究成果;学生读者可通过学习本书全面了解大数据处理平台。同时,本书也适用于对大数据技术拥有浓厚兴趣的读者。
适读人群 :大数据相关领域的研究生、从事大数据研究的读者、以及对于大数据处理平台的设计人员和架构人员
本书结合笔者自身的研究经验,从“学术研究”和“系统实现”相结合的角度,对平台进行全面的介绍,书中既有原理,又有学术前沿综述,但不包含使用方法、编程技术、构建步骤等类似工具书的内容。对于大数据相关领域的研究生、对于从事大数据研究的读者、以及对于大数据处理平台的设计人员和架构人员,本书均具有吸引力和独特之处。
宋杰,博士,副教授,现任职于东北大学软件学院云计算技术研究所。2003年毕业于东北大学,获学士学位,之后硕博连读,就读于东北大学计算机软件与理论专业。2008年获博士学位,随后在法国图卢兹第三大学的IRIT实验室由法方资助从事两年的海外研究工作,2010年经人才引进方式回国任教,2013-2015年入东软集团博士后工作站。近6年,以**作者发表期刊论文30篇,其中SCI期刊7篇,《计算机学报》6篇,《软件学报》6篇;以**发明人申请专利6项,软件著作权3项,维护开源项目2项;主持纵向科研项目10项,其中国家自然科学基金青年科学基金项目、国家自认科学基金面上项目、国家自然科学基金重点(子项)项目各1项,博士后基金项目1项,省部级项目6项,横向科研项目3项;与世界500强企业联手开发智能家电核心算法并得以应用,牵头制定国家云计算相关标准一项。
主要研究方向为大数据存储与管理、高效能计算和机器学习应用。
第1 章 体系结构
1.1 集群系统
1.1.1 Hadoop YARN
1.1.2 Apache Mesos
1.1.3 Apache ZooKeeper
1.2 文件系统
1.2.1 Google 分布式文件系统
1.2.2 Hadoop 分布式文件系统
1.2.3 其他分布式文件系统
1.3 NoSQL 和NewSQL
1.3.1 NoSQL 数据库系统
1.3.2 NewSQL 数据库系统
1.4 计算模型
1.4.1 MapReduce 编程模型
1.4.2 Spark 并行计算框架
参考文献
第2 章 查询平台
2.1 基本原理
2.1.1 系统简介
2.1.2 架构组织
2.2 现有研究
2.2.1 大数据精确查询系统
2.2.2 大数据近似查询系统
2.2.3 大数据多维查询系统
2.3 近期成果
2.3.1 Haery
2.3.2 Probery
参考文献
第3 章 分析平台
3.1 基本原理
3.1.1 OLAP 技术
3.1.2 系统架构
3.2 现有研究
3.2.1 传统OLAP 优化方法
3.2.2 OLAP 存储计算优化
3.2.3 大数据OLAP 引擎
3.3 近期成果
3.3.1 DOLAP
3.3.2 MapReduce OLAP
3.3.3 HaoLap
参考文献
第4 章 迭代计算平台
4.1 基本原理
4.2 现有研究
4.2.1 MapReduce 迭代计算框架
4.2.2 其他迭代计算框架
4.2.3 增量迭代计算
4.2.4 迭代算法优化
4.3 近期成果
4.3.1 增量迭代计算模型
4.3.2 归并迭代计算
4.3.3 迭代初始点选择
参考文献
第5 章 实时处理平台
5.1 基本原理
5.2 现有研究
5.2.1 Lambda 架构
5.2.2 队列
5.2.3 流处理
5.2.4 数据流处理框架
5.3 近期成果
5.3.1 实时数据迁移模型
5.3.2 数据源层的优化方法
5.3.3 迁移系统设计
参考文献
后记