本书以项目为基础,全面介绍如何将云计算应用于数据分析,内容涵盖大数据和机器学习。首先讨论异步技术并介绍云计算基础知识以及虚拟化、容器化和弹性化,然后讨论分布式计算、无服务器ETL技术和可管理的机器学习系统,还展示了数据科学案例研究,作者还分享了一些见解以及对职业化规划的建议。本书包含大量的实践作业,使用了丰富的资源,包括Python在云平台(谷歌、AWS、Azure)上的交互式实验室。
欢迎开启学习数据云计算的旅程。本书设计得非常实用,无论你打开哪一章,都将是开卷有益的。这些资料来自我职业生涯中所做的真实项目,我在世界各地的大学里使用这些资料进行了教学。
读完本书后,你将能完成以下工作:
创建云机器学习工作区。
管理机器学习实验和计算环境。
使用机器学习Designer GUI工具创建模型。
使用各种云平台创建训练管道(pipeline)。
自动化并监视管道。
自动化并观察实验。
使用AutoML。
将机器学习模型部署到Azure、GCP和AWS上。
对机器学习端点进行负载测试。
使用机器学习模型调试生产问题。
为机器学习模型建立有用的日志。
为机器学习模型创建有用的API。
为生产部署确定合适的云架构(例如GPU、弹性端点等)。
将持续交付应用到机器学习系统中。
构建一个基于云的机器学习工程组合项目。
为业务问题创建一个机器学习工程解决方案。
利用创意为项目制作精彩的录屏。
挪亚·吉夫特(Noah Gift),加州大学戴维斯分校管理研究生院MSBA项目的讲师和顾问。Noah拥有大约20年的Python编程经验,是Python软件基金会成员。他曾在多家公司担任过首席技术官、总经理、咨询首席技术官和云架构师。目前,他正在为初创企业和其他公司提供机器学习和云架构方面的咨询,并通过Noah Gift Consulting从事CTO级别的咨询工作。他已经出版了近100种技术出版物,其中包括两本关于从云机器学习到DevOps的书籍。他还是一名已认证的AWS解决方案架构师。
前 言
第1章 开始 1
1.1 有效的异步技术讨论 1
1.1.1 可复制代码 1
1.1.2 音频、视频和图像 5
1.1.3 制作一次,重复使用多次 6
1.1.4 技术讨论作为一种主动学习的形式 6
1.1.5 结论 6
1.1.6 练习:创造技术性帖子 6
1.2 有效的异步技术项目管理 7
1.2.1 为什么软件项目失败了 7
1.2.2 如何按时交付高质量的软件 7
1.2.3 其他高失败率的例子 9
1.2.4 练习:为终项目创建一个技术项目计划 10
1.3 上AWS、GCP和Azure云 10
1.3.1 AWS 10
1.3.2 微软的Azure 12
1.3.3 GCP 16
1.3.4 练习:设置CI云 18
1.3.5 练习:上云实验室 19
1.3.6 高级案例研究:使用Docker和CircleCI从零开始建立云环境持续集成 19
1.3.7 使用Docker容器来扩展Makefile的使用 23
1.4 总结 24
1.5 其他相关资源 25
第2章 云计算基础 26
2.1 为什么应该考虑使用基于云的开发环境 26
2.2 云计算概述 27
2.2.1 云计算的经济效益 27
2.2.2 云服务模型:SaaS、PaaS、IaaS、MaaS、Serverless 27
2.3 PaaS持续交付 29
2.3.1 谷歌应用引擎和云构建持续交付 29
2.3.2 建立多种类型的网站 36
2.3.3 练习:创建四个网站 39
2.4 基础设施即代码 39
2.5 什么是持续交付和持续部署 40
2.6 从零开始持续交付Hugo静态站点 40
2.7 总结 60
第3章 虚拟化、容器化和弹性化 61
3.1 弹性资源 61
3.2 容器:Docker 63
3.2.1 Docker入门 63
3.2.2 容器的真实例子 65
3.2.3 运行Docker容器 66
3.2.4 容器注册表 69
3.2.5 在AWS Cloud9上从零开始构建容器化应用 69
3.2.6 练习:在AWS Cloud9中构建Hello World容器 72
3.3 Kubernetes 72
3.3.1 安装Kubernetes 73
3.3.2 Kubernetes概述 73
3.3.3 自动伸缩的Kubernetes 77
3.3.4 云中的Kubernetes 78
3.3.5 混合云和多云Kubernetes 78
3.3.6 Kubernetes总结 79
3.4 运行微服务概述 79
3.4.1 创建有效的报警 82
3.4.2 Prometheus入门 84
3.4.3 使用Flask创建Locust负载测试 86
3.4.4 微服务的无服务器实践、灾难恢复和备份 88
3.5 练习:运行Kubernetes Engine 89
3.6 总结 90
第4章 分布式计算的挑战和机遇 91
4.1 终一致性 91
4.2 CAP定理 92
4.3 阿姆达尔定律 92
4.4 弹性 93
4.5 高可用 93
4.6 摩尔定律的终结 94
4.7 ASIC:GPU、TPU、FPGA 95
4.7.1 ASIC、CPU与GPU 95
4.7.2 使用GPU和JIT 97
4.7.3 练习:GPU编程 100
4.8 总结 100
第5章 云存储 101
5.1 云存储类型 101
5.2 数据治理 103
5.3 云数据库 104
5.4 键-值数据库 105
5.5 图形数据库 106
5.5.1 为什么不是关系型数据库而是图形数据库 107
5.5.2 AWS Neptune 107
5.5.3 Neo4j 108
5.5.4 大数据的三个V 116
5.6 批处理数据与流数据和机器学习 117
5.7 云数据仓库 118
5.8 GCP BigQuery 118
5.9 AWS Redshift 123
5.9.1 Redshift工作流中的关键操作 123
5.9.2 AWS Redshift总结 124
5.10 总结 124
第6章 无服务器ETL技术 125
6.1 AWS Lambda 125
6.2 使用AWS Cloud9开发AWS Lambda函数 128
6.2.1 构建一个API 128
6.2.2 构建一个无服务器数据工程管道 129
6.2.3 使用AWS Lambda在AWS S3桶上实现计算机视觉 130
6.2.4 练习:AWS Lambda Step Function 130
6.3 函数即服务 131
6.4 AWS Lambda的Chalice框架 132
6.5 谷歌云函数 133
6.6 Azure Flask无服务器机器学习 141
6.7 Cloud ETL 142
6.8 使用ETL从零开始构建社交网络的现实问题 143
6.8.1 冷启动问题 143
6.8.2 从零开始构建社交网络机器学习管道 144
6.8.3 案例研究:如何构建一个新闻提要 146
6.9 总结 146
第7章 可管理的机器学习系统 147
7.1 Jupyter Notebook工作流 147
7.2 AWS Sagemaker概述 152
7.2.1 AWS Sagemaker弹性架构 152
7.2.2 练习:使用Sagemaker 152
7.3 Azure ML Studio概述 154
7.4 谷歌AutoML计算机视觉 154
7.5 总结 155
第8章 数据科学案例研究和项目 156
第9章 随笔 163
9.1 为什么在2029年前将不会有数据科学这个职位 163
9.2 利用教育的拆分 165
9.3 垂直集成的AI栈将如何影响IT机构 168
9.4 notebook来了 170
9.5 云原生机器学习和AI 172
9.6 到2021年会培训100万人 174
9.6.1 高等教育的现状将会被打破 175
9.6.2 地方就业市场将会被打破 179
9.6.3 招聘流