本教材聚焦学术前沿,围绕人工智能的两大核心要素,即数据和模型,对人工智能领域安全问题以及相关攻防算法展开系统全面、详细深入的介绍。本教材可以帮助学生充分了解人工智能数据与模型所面临的安全风险,学习基础的攻防理论,掌握关键的攻防技巧。
·知识全面:系统全面地介绍人工智能安全领域的攻防思想和攻防策略。
·技术深入:从对抗学习和鲁棒优化的角度深入详细地介绍各类攻防算法。
·聚焦前沿:包含人工智能安全领域最新的研究动态和最前沿的的攻防技术。
·作者权威:人工智能安全领域的优秀学者,做出了一系列创新性科研成果。
人工智能是 21 世纪最重要的科学技术之一。从日常生活到工业制造再到科学研究,人工智能可以协助人类进行决策,代替耗时费力的重复性劳动,在大幅提升生产力的同时,加速推进产业结构升级变革。然而,人工智能的发展并不是一帆风顺的,从 1956 年达特茅斯会议提出 “人工智能” 概念至今,经历了起起伏伏,但人们追求 “通用人工智能” 的愿望从未停止。近年来,随着深度神经网络的提出、大规模数据集的构建和计算硬件的升级,数据、算法、算力三要素齐备,人工智能进入飞速发展阶段。我们现在可以训练包含十亿、百亿甚至千亿参数的人工智能大模型,这些大模型已经具备很强的能力,初见通用人工智能的端倪。如今,人工智能模型已经在交通、医疗、教育、金融、安防等领域广泛部署应用。
我们在拥抱人工智能的同时,需要充分重视其带来的安全问题。想要了解人工智能模型的安全问题,则须充分掌握其工作原理。自从深度神经网络被提出以来,科研人员就针对其工作原理和性质开展了大量的研究,几乎每发现一个特性就会引发一系列新的安全问题。例如,2013 年发现的 “对抗脆弱性” 引发了各种各样的针对深度神经网络模型的对抗攻击;2017 年发现的 “后门脆弱性” 引发了大量的数据投毒和后门攻击;深度神经网络的“记忆特性” 引发了对其隐私的攻击,包括数据窃取攻击和成员推理攻击等;而其对个别样本的 “敏感性” 和功能 “可萃取性” 则让模型窃取攻击成为可能。研究攻击是为了更好地防御。我们可以借助不同的攻击算法来对模型进行系统全面的安全性评测,从不同维度揭示其脆弱性边界,了解其在实际应用中可能存在的安全问题。基于这些分析,我们可以设计更高效的防御方法,提升模型在实际应用过程中的鲁棒性和安全性。这对大模型来说尤其重要,因为大模型所服务的用户群体更广,其安全问题往往会引发大范围的负面影响。例如,一旦自动驾驶系统存在安全隐患,则可能会威胁驾驶员、乘客和行人的生命安全。
当前,人工智能发展迅猛,新技术层出不穷,算法与模型日新月异,其安全问题也是如此。正是在这样的背景下,我们将近年来在研究过程中所积累的人工智能安全方面的知识归纳整理成此书,系统地呈现给读者。希望此书能够在一定程度上弥补在此方向上国内外教材的空白,为通用人工智能的到来做好准备,以保障其健康发展。
数据和模型是人工智能的两大核心要素。其中,数据承载了知识的原始形式,大规模数据集的采集、清洗和标注过程极其烦琐,需要大量的人力物力;模型则承载了从数据中学习得到的知识,其训练过程往往耗资巨大。高昂的价值和其背后的经济利益使数据和模型成为攻击者最为关注的攻击目标。正因如此,领域内大量的研究工作都是围绕数据和模型展开的。因此,本书聚焦人工智能领域中的数据和模型安全。人工智能安全的概念是广泛的,包括内生安全、衍生安全和助力安全等,本书的大部分内容属于内生安全。
本书的章节组织如下。第 1 章简要回顾了人工智能的发展历程;第 2 章介绍了机器学习的基础知识;第 3 章介绍了人工智能安全相关的基本概念、威胁模型和攻击与防御类型;第 4 章聚焦数据安全方面的攻击;第 5 章聚焦数据安全方面的防御;第 6 ~ 10 章分别聚焦模型安全方面的对抗攻击、对抗防御、后门攻击、后门防御以及窃取攻防;第 11 章展望了未来攻击和防御的发展趋势并强调了构建系统性防御的紧迫性。
本书适合人工智能、智能科学与技术、计算机科学与技术、软件工程、信息安全等专业的高年级本科生、研究生以及人工智能从业者阅读。本书中的部分技术细节需要读者具备一定的机器学习基础。此外,本书大部分的方法介绍都围绕图像分类任务展开,需要读者具备一定的计算机视觉基础。本书使用的示例图和框架图在尽量尊重原论文的基础上进行了一定的优化,如有不当之处,请联系我们更正。
感谢复旦大学的同学在本书的编写和校稿过程中提供的帮助,他们包括陈绍祥、宋雪、王铮、傅宇倩、魏志鹏、陈凯、赵世豪、吕熠强、訾柏嘉、钱天文、张星、常明昊、翁泽佳、王君可、翟坤、王欣、阮子禅、张超、林朝坤等。此外,感谢黄瀚珣博士和李一戈博士在此书写作过程中参与了讨论。
由于作者水平有限,书中内容难免会存在不足,欢迎各位读者提出宝贵的意见和建议。
姜育刚,复旦大学教授、博士生导师,长江学者特聘教授,IEEE Fellow、IAPR Fellow。研究领域为多媒体信息处理、计算机视觉、可信通用人工智能,国家科技创新2030—“新一代人工智能”重大项目负责人,上海市智能视觉计算协同创新中心主任。发表的200余篇论文被引用2万余次,构建的开源数据和工具集被国内外学者及企业频繁使用。曾获2018年度上海市科技进步一等奖、2019年度上海市青年科技杰出贡献奖、2022年度自然科学一等奖、2022年度国家级教学成果二等奖等荣誉。
马兴军,复旦大学研究员、博士生导师,国家级青年人才计划入选者。2019年在澳大利亚墨尔本大学获得博士学位,曾任墨尔本大学博士后研究员、迪肯大学助理教授。研究领域为可信机器学习,主要研究人工智能数据与模型的安全性、鲁棒性、可解释性和公平性等。发表的50余篇论文被引用7000余次,获最佳论文奖2项。研究成果曾获《麻省理工科技评论》等国际媒体报道。担任多个国际顶级学术会议的审稿人。
吴祖煊,复旦大学副教授、博士生导师,国家级青年人才计划入选者。2020年在美国马里兰大学获得博士学位。研究领域为计算机视觉与深度学习。发表的50余篇论文被引用7000余次。曾获2022年度自然科学一等奖、2022年度AI 2000多媒体领域最具影响力学者等荣誉。担任多个国际顶级学术会议的领域主席或审稿人。
序
前言
常用符号表
第 1 章 人工智能与安全概述 1
1.1 人工智能的定义 1
1.2 人工智能的发展 2
1.2.1 三起两落 3
1.2.2 重大突破 5
1.3 人工智能安全 8
1.3.1 数据与模型安全 8
1.3.2 现实安全问题 9
1.4 本章小结 10
1.5 习题 11
第 2 章 机器学习基础 12
2.1 基本概念 12
2.2 学习范式 17
2.2.1 有监督学习 17
2.2.2 无监督学习 18
2.2.3 强化学习 20
2.2.4 其他范式 21
2.3 损失函数 26
2.3.1 分类损失 26
2.3.2 单点回归损失 28
2.3.3 边框回归损失 29
2.3.4 人脸识别损失 30
2.3.5 自监督学习损失 33
2.4 优化方法 34
2.4.1 梯度下降 35
2.4.2 随机梯度下降 36
2.4.3 改进的随机梯度下降 36
2.5 本章小结 39
2.6 习题 39
第 3 章 人工智能安全基础 40
3.1 基本概念 40
3.2 威胁模型 43
3.2.1 白盒威胁模型 43
3.2.2 黑盒威胁模型 44
3.2.3 灰盒威胁模型 44
3.3 攻击类型 45
3.3.1 攻击目的 46
3.3.2 攻击对象 49
3.3.3 攻击时机 52
3.4 防御类型 54
3.4.1 攻击检测 54
3.4.2 数据保护 55
3.4.3 模型增强 56
3.5 本章小结 58
3.6 习题 58
第 4 章 数据安全:攻击 59
4.1 数据投毒 59
4.1.1 标签投毒攻击 60
4.1.2 在线投毒攻击 60
4.1.3 特征空间攻击 61
4.1.4 双层优化攻击 62
4.1.5 生成式攻击 65
4.1.6 差别化攻击 65
4.1.7 投毒预训练大模型 66
4.2 隐私攻击 67
4.2.1 成员推理攻击 67
4.2.2 属性推理攻击 74
4.2.3 其他推理攻击 75
4.3 数据窃取 75
4.3.1 黑盒数据窃取 77
4.3.2 白盒数据窃取 79
4.3.3 数据窃取大模型 81
4.4 篡改与伪造 82
4.4.1 普通篡改 83
4.4.2 深度伪造 84
4.5 本章小结 97
4.6 习题 97
第 5 章 数据安全:防御 98
5.1 鲁棒训练 98
5.2 差分隐私 100
5.2.1 差分隐私概念 100
5.2.2 差分隐私在深度学习中
的应用 103
5.3 联邦学习 106
5.3.1 联邦学习概述 106
5.3.2 横向联邦 111
5.3.3 纵向联邦 113
5.3.4 隐私与安全 116
5.4 篡改与深伪检测 121
5.4.1 普通篡改检测 121
5.4.2 深度伪造检测 122
5.5 本章小结 128
5.6 习题 128
第 6 章 模型安全:对抗攻击 129
6.1 白盒攻击 130
6.2 黑盒攻击 136
6.2.1 查询攻击 136
6.2.2 迁移攻击 140
6.3 物理攻击 145
6.4 本章小结 152
6.5 习题 152
第 7 章 模型安全:对抗防御 153
7.1 对抗样本成因 153
7.1.1 高度非线性假说 153
7.1.2 局部线性假说 155
7.1.3 边界倾斜假说 156
7.1.4 高维流形假说 157
7.1.5 不鲁棒特征假说 159
7.2 对抗样本检测 161
7.2.1 二级分类法 162
7.2.2 主成分分析法 163
7.2.3 异常分布检测法 164
7.2.4 预测不一致性 168
7.2.5 重建不一致性 170
7.2.6 诱捕检测法 171
7.3 对抗训练 172
7.3.1 早期对抗训练 173
7.3.2 PGD 对抗训练 176
7.3.3 TRADES 对抗训练 179
7.3.4 样本区分对抗训练 180
7.3.5 数据增广对抗训练 181
7.3.6 参数空间对抗训练 182
7.3.7 对抗训练的加速 183
7.3.8 大规模对抗训练 186
7.3.9 对抗蒸馏 188
7.3.10 鲁棒模型结构 190
7.4 输入空间防御 192
7.4.1 输入去噪 192
7.4.2 输入压缩 192
7.4.3 像素偏转 192
7.4.4 输入随机化 193
7.4.5 生成式防御 193
7.4.6 图像修复 194
7.5 可认证防御 194
7.5.1 基本概念 194
7.5.2 认证小模型 195
7.5.3 认证中模型 197
7.5.4 认证大模型 201
7.6 本章小结 203
7.7 习题 203
第 8 章 模型安全:后门攻击 204
8.1 输入空间攻击 205
8.2 模型空间攻击 210
8.3 特征空间攻击 213
8.4 迁移学习攻击 214
8.5 联邦学习攻击