21 世纪,互联网行业的爆发开启了全球数据量急剧增长的新时代,数据已经成为驱动企业数字化转型的核心力量。整个数据行业的技术能力不断提升,从数据库到数据仓库,再到开源大数据,都在经济社会中发挥着极其重要的作用。近年来,新兴数据技术与云计算相互辅助,共同发展,诞生了一系列云原生数据服务,让企业能够突破传统模式的局限,专注于业务,降本增效。本书以全球前沿的云原生服务为基础,详细展现了如何将数据存储、数据引入、批量数据处理、实时数据处理、数据仓库、数据可视化和机器学习等核心要素综合起来,逐步构建一个高效的大数据服务平台。
金鑫,微软技术专家,于2000年加入微软,专注于研究企业级应用和分布式系统。近年来,作为微软公有云架构和开发技术领域专家,主要从事微软云数据平台和开发平台的建设工作,致力于为客户提供云原生解决方案及技术咨询。武帅,微软技术专家,于2011年加入微软,一直从事开发测试技术和公有云的研究及咨询工作。目前专注于云计算的行业落地,致力于物联网、大数据和人工智能等新兴技术助力企业数字化转型的工作。
第1章 数字化转型与数据技术 001
1.1 数字化转型 002
1.2 基于数据进行数字化转型 004
1.3 数据仓库 006
1.4 大数据 009
1.5 数据湖 013
1.6 云计算中数据技术的演进 016
1.7 本书目标 018
第2章 数据存储 019
2.1 数据存储的发展与趋势 020
2.1.1 集中式文件系统 020
2.1.2 网络文件系统 021
2.1.3 分布式文件系统 022
2.1.4 云原生存储 024
2.2 Azure Blob对象存储 025
2.2.1 数据冗余策略 027
2.2.2 分层存储 030
2.2.3 兼容HDFS的WASB文件系统 031
2.3 创建存储账号 033
2.3.1 订阅 033
2.3.2 资源组 034
2.3.3 存储账号 036
2.4 Azure数据湖存储 039
2.4.1 分层命名空间 039
2.4.2 兼容HDFS的ABFS文件系统 040
2.5 创建数据湖存储 043
2.6 基于HDFS访问数据湖存储 045
2.7 在HDInsight中访问数据湖存储 058
2.8 本章小结 064
第3章 数据引入 065
3.1 什么是数据引入 066
3.2 数据引入面临的挑战 067
3.3 数据引入工具 069
3.4 数据工厂 071
3.4.1 什么是数据工厂 071
3.4.2 创建数据工厂 072
3.4.3 数据工厂的主要组件 076
3.5 引入数据 084
3.5.1 数据复制 084
3.5.2 管道设计 088
3.5.3 参数化 098
3.5.4 监控 100
3.6 本章小结 102
第4章 批量数据处理 103
4.1 数据处理概述 104
4.2 数据处理引擎 105
4.2.1 MapReduce 105
4.2.2 Spark 107
4.3 Databricks 111
4.4 使用Databricks处理批量数据 115
4.5 Databricks的特性 121
4.5.1 依赖库管理 121
4.5.2 Databricks文件系统(DBFS) 124
4.5.3 密钥管理 126
4.5.4 Delta Lake 129
4.6 使用数据工厂处理批量数据 134
4.6.1 设计Data Flow 134
4.6.2 Data Flow的设计模式 144
4.6.3 如何选择Data Flow与Databricks 145
4.7 本章小结 146
第5章 实时数据处理 147
5.1 什么是实时数据处理 148
5.2 消息队列 149
5.3 Kafka的使用 153
5.3.1 创建虚拟网络 153
5.3.2 创建Kafka集群 155
5.3.3 配置IP advertising 157
5.3.4 生产者发送数据 159
5.4 实时数据处理引擎 166
5.5 使用Spark Structured Streaming处理实时数据 171
5.5.1 连通Kafka与Databricks 171
5.5.2 在Databricks中处理数据 174
5.5.3 使用Cosmos DB保存数据 176
5.6 Event Hub 182
5.7 本章小结 190
第6章 数据仓库 191
6.1 什么是数据仓库 192
6.2 云原生数据仓库 194
6.3 Synapse Analytics 199
6.3.1 什么是Synapse Analytics 199
6.3.2 Synapse SQL的架构 200
6.3.3 创建Synapse工作区 208
6.3.4 创建SQL池 210
6.3.5 连接SQL池 212
6.4 数据加载 214
6.4.1 数据加载方式 214
6.4.2 使用COPY导入数据 220
6.5 Synapse SQL的资源和负荷管理 227
6.5.1 资源类 227
6.5.2 并发槽 229
6.5.3 最大并发查询数 231
6.5.4 工作负荷组 232
6.5.5 工作负荷分类器 239
6.6 数据仓库发展趋势 242
6.6.1 挑战 242
6.6.2 趋势 244
6.7 Synapse Analytics的高级特性 245
6.7.1 Synapse 工作室 246
6.7.2 数据中心 247
6.7.3 无服务器SQL池 248
6.7.4 托管Spark 252
6.8 本章小结 257
第7章 数据可视化 258
7.1 数据可视化概述 259
7.2 数据可视化工具 260
7.3 Power BI 263
7.3.1 什么是Power BI 263
7.3.2 Power BI的构件 265
7.3.3 使用Power BI Desktop 268
7.3.4 使用Power BI服务 281
7.4 本章小结 285
第8章 机器学习 286
8.1 机器学习概述 287
8.1.1 算法类型 287
8.1.2 业务场景 290
8.2 机器学习的流程 291
8.3 机器学习的挑战与云原生平台的优势 293
8.4 云原生机器学习平台 296
8.4.1 创建工作区 297
8.4.2 创建数据存储库 298
8.4.3 创建数据集 301
8.4.4 创建计算资源 303
8.5 机器学习设计器 305
8.6 自动化机器学习 310
8.7 本章小结 315
参考文献 316