本书着眼于人工智能自身的安全问题,旨在将当前人工智能安全的基础问题、关键问题、核心算法进行归纳总结。本书的定位是学习人工智能安全的入门书籍,因此先详细介绍了人工智能安全相关的基础知识,包括相关的基础算法和安全模型,使得读者明确人工智能面临的威胁,对人工智能安全有一个大体的概念和初步认识。然后将人工智能系统的主要安全威胁分为模型安全性威胁和模型与数据隐私威胁两大类。模型安全性威胁主要包括投毒攻击、后门攻击、对抗攻击、深度伪造。模型与数据隐私威胁主要包括窃取模型的权重、结构、决策边界等模型本身信息和训练数据集信息。本书在介绍上述经典攻击技术的同时,也介绍了相应的防御方法,使得读者通过这些攻击了解人工智能模型的脆弱性,并对如何防御攻击的方法、如何增强人工智能模型的鲁棒性有一定的思考。本书主要从隐私保护的基本概念、数据隐私、模型窃取与防御三个维度来介绍通用的隐私保护定义与技术、典型的机器学习数据隐私攻击方式和相应的防御手段,并探讨了模型窃取攻击及其对应的防御方法,使得读者能够直观全面地了解模型与数据隐私并掌握一些经典算法的整体实现流程。这本书还介绍了真实世界场景中不同传感器下的对抗攻击和相应的防御措施以及人工智能系统对抗博弈的现状。相比于数字世界的攻击,真实世界的攻击更需要引起人们的关注,一旦犯罪分子恶意利用人工智能系统的漏洞,将会给人们的生产生活带来安全威胁,影响大家的人身安全、财产安全还有个人隐私。读者可以通过阅读此书的知识内容及相关经典案例了解掌握人工智能系统面临的攻防技术,了解如何在前人的基础上,研究出针对各种攻击的防御方法,为可信人工智能助力。本书适合期望入门人工智能安全的计算机相关专业的学生、技术工作者,人工智能领域的从业人员,对人工智能安全感兴趣的人员,致力于建设可信人工智能的人员,本书所涉及的内容可以帮助读者快速全面地了解人工智能安全所涉及的问题及技术,了解相关攻防技术算法的基本原理,可帮助人工智能领域的开发人员做出更安全的应用产品。
近年来,以深度神经网络为代表的人工智能技术飞速发展,在越来越多任务中的表现超过了人类智力水平。在金融、教育、医疗、军事、工业制造、社会服务等多个领域,人工智能技术的应用不断深化和成熟。然而,随着人工智能与社会生活的高度融合,人工智能系统自身暴露出众多的安全问题,引起了社会的广泛关注。
相对于人工智能赋能于网络安全领域,人工智能自身的安全是一个新颖而有趣的领域,其主要研究方向可以分为攻击和防御两个层面。近年来不断涌现出针对人工智能系统的新型安全攻击,如对抗攻击、投毒攻击、后门攻击、伪造攻击、模型窃取攻击、成员推理攻击等。这些攻击损害了人工智能算法和数据的机密性、完整性、可用性,受到学术界和工业界的广泛关注。人工智能系统面对的安全威胁主要分为模型安全性、模型与数据隐私两大类。
模型安全性指的是人工智能模型在全生命周期所面临的安全威胁,包括人工智能模型在训练与推理阶段可能遭受潜在的攻击者对模型功能的破坏,以及由人工智能自身鲁棒性欠缺引起的危险。对抗攻击通过在模型的输入中加入精心构造的噪声,使模型输出出现错误,其本质是利用了模型决策边界与真实边界不一致的脆弱性。例如,在交通指示牌上贴上特殊的小贴纸,可以使自动驾驶汽车错误地将其识别为转向标志。投毒攻击通过篡改训练数据来改变模型行为和降低模型性能。例如微软的一款与Twitter用户交谈的聊天机器人Tay,在受到投毒攻击后做出与种族主义相关的评论,从而被关闭。后门攻击是指人工智能模型对于某些特殊的输入(触发器)会产生错误的输出,对于干净的输入则产生预期的正确输出。便如,在手写数字识别中,后门模型能准确识别出图像中的数字0~9,但当数字7的右下角加入一个圆圈时,后门模型将其识别为1。伪造攻击包括视频伪造、声音伪造、文本伪造和微表情合成等。生成的假视频和音频数据可以达到以假乱真的程度,冲击人们“眼见为实”的传统认知。
模型与数据隐私指的是人工智能模型自身的模型参数及训练数据的隐私性。深度学习模型使用过程中产生的相关中间数据,包括输出向量、模型参数、模型梯度等,甚至模型对于正常输入的查询结果,都可能会泄露模型参数及训练数据等敏感信息。模型窃取攻击是指攻击者试图通过访问模型的输入和输出,在没有训练数据和算法的先验知识的情况下,复制机器学习模型。成员推理攻击是指攻击者可以根据模型的输出判断一个具体的数据是否存在于训练集中。
攻击和防御是“矛”与“盾”的关系,二者相辅相成,互相博弈,共同进步。针对上述攻击,也提出了相应的防御方法。整体上来看,针对人工智能模型的攻击及防御的研究,在特定的应用场景下展现出不错的效果,但对现有人工智能系统造成严重威胁的通用性攻击方法,能够对抗多种攻击手段和自动化部署的防御方法还处于探索之中。另外,人工智能自身还欠缺较好的可解释性,人工智能模型的攻防研究更多地集中在实验 的层次上,具备可解释性的攻击与防御方法是学术界未来研究的重点和热点。
本书着眼于人工智能自身的安全问题,旨在对当前人工智能安全的基本问题、关键问题、核心算法进行归纳总结。本书的定位是关于人工智能安全的入门书籍,因此先详细介绍了人工智能安全相关的基础知识,包括相关的基本算法和安全模型,以便读者明确人工智能面临的威胁,对人工智能安全有一个初步认识。然后,本书将人工智能系统的主要安全威胁分为模型安全性威胁和模型与数据隐私威胁两大类。模型安全性威胁主要包括投毒攻击、后门攻击、对抗攻击、深度伪造攻击。模型与数据隐私威胁主要包括窃取模型的权重、结构、决策边界等模型本身信息和训练数据集信息。
本书在介绍经典攻击技术的同时,也介绍了相应的防御方法,使得读者通过攻击了解人工智能模型的脆弱性,并对如何防御攻击、如何增强人工智能模型的鲁棒性有一定的思考。本书主要从隐私保护的基本概念、数据隐私、模型窃取与防御三个维度来介绍通用的隐私保护定义与技术、典型的机器学习数据隐私攻击方式和相应的防御手段,并探讨了模型窃取攻击及其对应的防御方法,使得读者能够直观全面地了解模型与数据隐私并掌握一些经典算法的实现流程。本书还介绍了真实世界场景中不同传感器下的对抗攻击和相应的防御措施,以及人工智能系统对抗博弈的现状。相比于数字世界的攻击,真实世界的攻击更需要引起人们的关注,一旦犯罪分子恶意利用人工智能系统的漏洞,将会给人们的生产生活带来安全威胁,影响人身安全、财产安全和个人隐私。例如,罪犯利用对抗样本来攻击人脸识别系统,使得警察无法对其进行监视追踪;不法分子通过深度伪造将名人或政客的脸替换到不良图片或视频中,造成不良的影响。读者可以通过阅读本书,了解人工智能系统相关的攻防技术,从而研究出针对各种攻击的更可行的防御方法,为可信人工智能助力。
本书适合希望了解人工智能安全的计算机相关专业的学生、人工智能领域的从业人员、对人工智能安全感兴趣的人员,以及致力于建设可信人工智能的人员阅读,帮助读者快速全面地了解人工智能安全所涉及的问题及技术。而了解相关攻防技术的基本原理,有助于人工智能领域的开发人员做出更安全的应用产品。
推荐序
前言
第一部分基础知识
第1章人工智能概述2
11人工智能发展现状2
111跌跌撞撞的发展史2
112充满诱惑与希望的现状3
113百家争鸣的技术生态圈4
114像人一样行动:通过图灵测试
就足够了吗5
115像人一样思考:一定需要具备
意识吗7
116合理地思考:一定需要具备逻辑
思维吗8
117合理地行动:能带领我们走得
更远吗9
12人工智能安全现状 12
121模型安全性现状13
122模型与数据隐私现状14
123人工智能安全法规现状15
第2章人工智能基本算法16
21基本概念16
22经典算法17
221支持向量机17
222随机森林22
223逻辑回归25
224K近邻27
225神经网络28
226卷积神经网络31
227强化学习36
23主流算法43
231生成对抗网络43
232联邦学习45
233在线学习49
24算法可解释性51
241可解释性问题52
242事前可解释52
243事后可解释53
244可解释性与安全性分析56
25基础算法实现案例56
26小结57
第3章人工智能安全模型58
31人工智能安全定义58
311人工智能技术组成58
312人工智能安全模型概述59
32人工智能安全问题60
321数据安全问题60
322算法安全问题60
323模型安全问题61
33威胁模型和常见攻击62
331威胁模型63
332常见攻击65
34模型窃取攻击与防御实现
案例77
35小结77
第二部分模型安全性
第4章投毒攻击与防御80
41投毒攻击80
411针对传统机器学习模型的投毒
攻击81
412深度神经网络中的投毒攻击84
413强化学习中的投毒攻击89
414针对其他系统的投毒攻击89
42针对投毒攻击的防御方法90
421鲁棒学习91
422数据清洗92
423模型防御93
424输出防御93
43投毒攻击实现案例94
44小结94
第5章后门攻击与防御95
51后门攻击与防御概述95
511攻击场景97
512机器学习生命周期中的后门
攻击97
513后门攻击相关定义98
514威胁模型99
52图像后门攻击100
521早期后门攻击100
522基于触发器优化的后门
攻击102
523面向触发器隐蔽性的后门
攻击104
524“干净标签”条件下的后门
攻击109
525其他后门攻击方法112
53图像后门防御113
531基于数据预处理的防御
方法114
532基于模型重建的防御方法114
533基于触发器生成的防御方法115
534基于模型诊断的防御方法116
535基于投毒抑制的防御方法117
536基于训练样本过滤的防御
方法117
537基于测试样本过滤的防御
方法117
538认证的防御方法118
54其他场景下的后门模型118
55后门攻击和其他方法的关系119
551与对抗样本攻击的关系119
552与投毒攻击的关系120
56后门攻击与防御实现案例120
57小结121
第6章对抗攻击与防御122
61对抗攻击与防御概述122
62图像对抗样本生成技术123
621基于梯度的对抗样本生成124
622基于优化的对抗样本生成126
623基于梯度估计的对抗样本
生成128
624基于决策的对抗样本生成130
63图像对抗样本防御131
631输入层面的防御方法131
632模型层面的防御方法134
633可验证的防御方法138
634其他防御方法139
64文本对抗样本生成与防御140
641文本对抗样本生成140
642文本对抗样本防御150
65其他数字对抗样本155
651图对抗样本155
652恶意软件检测模型中的对抗
样本162
66对抗攻击与防御实现
案例168
67小结169
第7章深度伪造攻击与防御170
71深度伪造攻击与防御概述170
72深度伪造人脸生成171
721人脸合成171
722身份交换172
723面部属性操作175
724面部表情操作176
73深度伪造人脸检测176
731基于帧内差异的检测方法177
732基于帧间差异的检测方法180
74深度伪造语音生成与检测182
741深度伪造语音生成182
742深度伪造语音检测185
75深度伪造攻击与防御实现
案例186
76小结187
第三部分模型与数据隐私
第8章隐私保护基本概念190
81隐私保护概述190
82安全多方计算191
821安全多方计算的基本概念191
822基于混淆电路的安全多方
计算193