本书首先介绍联邦学习的定义和发展历史,按类别介绍联邦学习算法和发展现状,介绍联邦学习的应用场景,以及相关安全机器学习的技术。然后我们将介绍zui新zui前沿的联邦学习算法,用数科系统作为实例,对联邦学习系统构建和实现进行讲解。zui后我们将介绍数科自研的基于区块链的联邦学习技术。
作者都是扎根于联邦学习前沿的研究者和从业者。
本书提出了众多不同于其他书籍的全新联邦学习算法,以飨读者。
作者参考了近年全新的文章和综述,紧跟学术和业界的联邦学习动态。
机器学习技术在近20年飞速发展,从一个个数学概念逐渐演变成一个个算法实现,为工业界和学术界带来了新的力量。然而,近几年,数据隐私保护问题愈发受到人们的关注,研究者们开始开发各种技术来进行数据层面的隐私保护。联邦学习作为其中一项重要技术,势必迎来新的发展前景。本书将从概念、应用场景到具体的先进算法,再到后的系统实现,对联邦学习技术进行全盘的梳理与总结,希望给读者一些启发。注意,本书仅从技术视角对联邦学习进行回顾展望,如有涉及数据收集与授权方面的信息,还需要满足管辖地法律法规及监管的要求。
本书分三个部分,共17章。
部分为联邦学习基础知识,主要介绍联邦学习的定义、挑战、应用场景和常用技术,包括以下3章。
第1章联邦学习概述,详细介绍了什么是联邦学习、联邦学习的应用现状与挑战,然后介绍了分布式学习和联邦学习的区别与关联。
第2章联邦学习应用场景,本章从金融、生物医学、计算机视觉和自然语言处理等多个方面对联邦学习的应用场景进行介绍。
第3章常用隐私保护技术,我们首先对当前基于隐私保护的机器学习算法进行了简要综述,然后重点介绍了差分隐私、安全多方计算和同态加密等常用的隐私保护技术。
第二部分为联邦学习算法详述,主要介绍了我们针对纵向联邦学习和横向联邦学习场景提出来的诸多创新性联邦学习算法,包括以下10章。
第4章纵向联邦树模型算法,基于两种不同的集成方法Bagging和Boosting分别设计了两种算法:纵向联邦随机森林算法和纵向联邦梯度提升算法。
第5章纵向联邦线性回归算法,提出了全新的纵向联邦多视角线性回归算法,从多个视角对对象进行建模并联合优化所有函数。
第6章纵向联邦核学习算法,提出了一个针对纵向联邦场景的核学习算法,并设计了一个完整的联邦学习框架。
第7章异步纵向联邦学习算法,针对当前纵向联邦学习算法主要采用的同步并行方法提出了相应的异步并行算法,并针对强凸问题提供了理论保证。
第8章基于反向更新的双层异步纵向联邦学习算法,提出了一个反向更新的异步并行算法,以在实际应用中同时实现标签数据保护和并行计算(更新)。
第9章纵向联邦深度学习算法,提出了一个针对当下流行的深度学习模型的纵向联邦学习基础框架,并对框架进行了简要的综合分析。
第10章快速安全的同态加密数据挖掘框架,针对当前同态加密时间复杂度高的问题,提出了一个基于同态加密的快速分布式数据挖掘框架。
第11章横向联邦学习算法,在阐述分布式学习和横向联邦学习之间关系的基础上,对当前横向联邦学习的主流算法进行了较为详细的介绍。
第12章混合联邦学习算法,结合横向联邦学习和纵向联邦学习的特点,提出了适用性更广、使用步骤简单的混合联邦学习算法。
第13章联邦强化学习,首先介绍了强化学习的定义和常用技术方案,然后介绍了多种联邦强化学习算法。
第三部分为联邦学习系统相关知识,主要介绍了科技设计的联邦学习系统及算法落地的性能优化技术,包括以下4章。
第14章FedLearn联邦学习系统,从编程语言与环境、系统架构、跨语言算法支持(函数调用)、系统服务和工程部署等方面全方位地介绍了FedLearn联邦学习系统。
第15章gRPC在FedLearn中的联邦学习应用实例,以横向联邦学习和纵向联邦学习的应用场景为切入点,详细介绍了如何使用FedLearn中采用的高性能框架gRPC。
第16章落地场景中的性能优化实践,介绍了如何在实际应用中对系统进行性能优化,并给出了实际应用场景中的优化结果。
第17章基于区块链的联邦学习,引入区块链学习,介绍了基于区块链的联邦学习算法和联邦学习系统的实现。
其中,第二部分为本书的重点部分,我们提出了诸多联邦学习的算法、流程详解及可能的理论保障。如果读者没有充足的时间完成全书的阅读,可以选择性地进行重点部分的阅读。如果读者有一定的从业经验,本书可能会是一本不错的参考书。然而,如果读者是一名初学者,建议在阅读本书之前,先进行一些机器学习、分布式学习以及隐私保护技术等基础理论知识的学习。
本书相比于其他联邦学习书籍的特色与优势在于:,本书的作者是扎根于联邦学习前沿的研究者和从业者;第二,我们在本书中提出了众多不同于其他书籍的全新联邦学习算法,以飨读者;第三,我们参考了近两年全新的文章和综述,紧跟学术和业界的联邦学习动态。
在本书的编写过程中,我们深深地感受到联邦学习及其相关领域技术的繁多冗杂,因此书中难免出现一些错误或者不准确的地方,恳请读者批评指正。
感谢科技对我们撰写本书的大力支持与帮助!
感谢科技硅谷研发部基础用户算法部的顾彬、单华松、王家洲。
感谢科技算法工程研发部区块链平台组的王义、孙海波。
感谢科技硅谷研发部联邦学习算法部的党致远、范明姐、王佩琪、王新左、张青松、张文夕(按姓名首字母排序)。
前言
部分 联邦学习基础知识
第 1 章 联邦学习概述 2
1.1 什么是联邦学习 2
1.1.1 联邦学习的发展历史 3
1.1.2 联邦学习的工作流程 4
1.1.3 联邦学习的分类 6
1.2 联邦学习的应用和挑战 8
1.2.1 联邦学习的应用现状 8
1.2.2 联邦学习的核心挑战 9
1.3 分布式机器学习与联邦学习 10
1.3.1 分布式机器学习的发展历史 10
1.3.2 分布式机器学习概述 11
1.3.3 分布式机器学习与联邦学习的共同发展 13
1.4 总结 14
第 2 章 联邦学习应用场景 15
2.1 联邦学习与金融 15
2.2 联邦学习与生物医学 17
2.3 联邦学习与计算机视觉 19
2.4 联邦学习与自然语言处理 22
2.5 联邦学习与边缘计算和云计算 25
2.6 联邦学习与计算机硬件 27
2.7 总结 29
第 3 章 常用隐私保护技术 30
3.1 面向隐私保护的机器学习 30
3.1.1 概述 30
3.1.2 面向隐私保护的机器学习发展 33
3.2 常用的隐私保护技术 34
3.2.1 差分隐私 34
3.2.2 安全多方计算 41
3.2.3 同态加密 49
3.3 总结 66
第二部分 联邦学习算法详述
第 4 章 纵向联邦树模型算法 68
4.1 树模型简介 68
4.2 纵向联邦随机森林算法 69
4.2.1 算法结构 69
4.2.2 算法详述 70
4.2.3 安全性分析 71
4.3 纵向联邦梯度提升算法 75
4.3.1 XGBoost 算法 76
4.3.2 SecureBoost 算法 76
4.3.3 所提算法详述 77
4.4 总结 78
第 5 章 纵向联邦线性回归算法 79
5.1 纵向联邦线性回归 80
5.1.1 算法训练过程 81
5.1.2 算法预测过程 81
5.1.3 纵向联邦的一个困境 82
5.2 联邦多视角线性回归 82
5.2.1 基于 BFGS 的二阶优化方法 84
5.2.2 安全计算协议 87
5.3 总结 92
第 6 章 纵向联邦核学习算法 93
6.1 引言 93
6.2 双随机核方法 95
6.2.1 问题定义 95
6.2.2 核方法的简要介绍 96
6.2.3 随机傅里叶特征近似 98
6.2.4 双随机梯度 98
6.3 所提算法 99
6.3.1 问题表示 100
6.3.2 算法结构 100
6.3.3 算法设计 101
6.3.4 场景案例 103
6.4 理论分析 105
6.4.1 收敛性分析 105
6.4.2 安全性分析 105
6.4.3 复杂度分析 106
6.5 实验验证 106
6.5.1 实验设置 106
6.5.2 实验结果和讨论 107
6.6 总结 110
第 7 章 异步纵向联邦学习算法 111
7.1 引言 111
7.2 相关工作 112
7.2.1 现有工作概述 112
7.2.2 SGD 类算法回顾 113
7.3 问题表示 114
7.4 所提算法 114
7.4.1 算法框架 114
7.4.2 算法详述 116
7.4.3 场景案例 119
7.5 理论分析 120
7.5.1 收敛性分析 120
7.5.2 安全性分析 123
7.5.3 复杂度分析 124
7.6 实验验证 125
7.6.1 实验设置 125
7.6.2 实验结果和讨论 127
7.7 总结 1