●序●
如果说,早期人们对AI技术的能力还抱有些许质疑的话,那么2016年Google公司AlphaGo的横空出世,则让普罗大众对AI技术的看法有了耳目一新的变化,越来越多的AI技术被应用到各行各业中,带来商业繁荣的同时也带来了人们更多的担忧。
在AI技术的加持之下,我们的生活在不知不觉中不断发生着从量变到质变的迭代。我们通过AI技术赋能的内容平台可以更深入地了解世界和自己,同时也承担着信息茧房之伤害。我们通过AI技术赋能的商业平台获得更多的便捷性,同时也被大数据杀熟等副作用包围。
我们被AI计算,同时也被AI算计。
随着AI技术在各类商业、业务模式中的广泛应用,身为安全从业者的我们不得不对这一古老而又新鲜的技术模式加以重视。到底AI 技术会给安全行业带来哪些巨变?
多年以前,我和我的团队在安全工作中遇到过一个特殊的黑产团伙,该团伙让我们青睐有加的原因在于,其在相关的攻防场景里,用了当时颇为流行的Caffe深度学习框架和卷积神经网络,这使得他们同其他竞争者相比攻击效率有了数倍的提升。
尽管这个黑产团伙后来被及时打掉,但这也让我们意识到一个事实在未来的日子里,AI技术必将是安全战场攻防两端的兵家必争之地。
从那时候起,我的团队就开始在AI安全方面做大量细致、深入的探索研究工作,我们的尝试和实践主要覆盖以下几个方面。
(1)AI技术本身的安全性。
(2)AI技术为攻击提效。
(3)AI技术为防守助力。
(4)AI技术之以攻促防,攻防联动。
我们走过一些弯路,也有过一些收获。我们参考了很多前辈和行业专家的经验成果,也分享过一些小小的发现。而正是在这个探索过程中,我们意识到,前辈们的探索经验和研究成果,为我们所进行的安全研究工作带来了诸多的便捷性。
所以,本着继承和发扬前辈们的开放、协作和共享精神,我们也将工作中的点滴进行了总结与归纳,把研究历程中的一些经验沉淀下来形成本书。
本书的重点将锚定在AI安全发展的通用技术上,包括对抗样本攻击、数据投毒攻击、模型后门攻击、预训练模型中的风险与防御、AI数据隐私窃取攻击,以及AI 应用失控等方面。本书对各类攻击方法及其技术原理进行了分析,并详细介绍了基于不同算法和数据实验的实现过程和案例总结,基本保持了原汁原味,以便志同道合的读者朋友们进行参考,这也算是我和我的团队为AI安全工作尽的一些绵薄之力。
我们深知,一方面,安全和技术的发展都日新月异、持续更新和迭代,本书中一些内容和知识点随着时间的推移都会逐渐过时、落伍,所以我们也会继续不断探索、保持更新。另一方面,也希望通过我们的管中窥豹来抛砖引玉,通过本书结识更多志同道合的朋友。
我始终相信,科技的力量会让人类文明更加美好,虽道阻且长,但行则将至,行而不辍,未来可期。我和团队的小伙伴们会继续努力,也欢迎有兴趣的读者朋友们一起探讨、共同研究,携手体验AI安全探索的奇妙之旅。
杨勇 腾讯安全平台部负责人
●前言●
腾讯安全朱雀实验室于2019年开始着手AI安全的研究工作,涉及对抗样本攻击、模型安全、AI应用失控等多个领域。在技术研究和实践过程中,我们走过许多弯路,也尝过成功的喜悦,这在一定程度上凝结成了此书的大部分内容,特与读者分享。
回顾最初的探索,我们是从对抗样本开始的,在多个场景中实现通过轻微篡改来欺骗AI 模型,并尝试将技术成果在腾讯业务场景中找到落脚点。然而,在实践过程中,多次实验表明对抗样本的迁移性有限,即基于A模型生成的对抗样本很难在B模型上发挥作用。2019年年底,我们转而研究如何生成迁移性更好的对抗样本,并在一些学术会议和安全会议上分享了我们的研究成果及经验,如ECCV、CanSecWest等。和大多数AI 研究遇到的问题一样,实验室的研究成果在产业落地上往往力不从心。
2020年以来,朱雀实验室在相关技术积累的基础上,拓宽AI 安全研究领域,涉及模型安全、AI滥用、AI伦理等,同时构建和完善AI安全蓝图,进一步探索技术的应用落地。
在模型安全研究方面,我们分别在XCon 2020、ICLR 2021( Security Workshop)、CVPR 2022等安全/AI领域会议上分享非数据投毒式的模型后门攻击研究成果,验证了攻击在掌握少量模型信息的情况下,通过对网络参数的精准修改重建出模型后门的可能性,这进一步揭示了算法模型的脆弱性。
在AI应用失控方面,我们围绕深度伪造带来的潜在安全风险问题,一方面,从攻击的角度出发,去揭露一些安全风险问题;另一方面,从防御的角度出发,去落地一些用于深度伪造检测的工具,并连续两年在安全会议上分享工作成果。除此之外,我们在语音攻击、文本攻击等不同的领域也做了大量的实验工作。
在同AI算法打交道的过程中,我们发现,现阶段基于深度学习的系统是较容易遭到对抗样本攻击的。一方面,业务侧以功能需求为第一要务,安全防御方面的工作相对滞后,通常在出现攻击案例后才会进行分析和调整,而且这种修补过程并不像传统网络安全漏洞修补的过程,需要不断调整训练数据和优化训练过程,实施过程的成本较高;另一方面,AI算法的建立过程并没有引入安全环节把控,理论上攻击方法非常丰富,即使AI系统仅提供API级别的交互服务,攻击者也可以通过模型窃取攻击方式来拟合线上模型决策结果,建立一个本地的白盒模型,再在白盒模型的基础上进行迁移攻击,进而影响线上模型。
总体来看,当前阶段攻击方法走在了防御方法的前面,我们可以通过总结各种攻击方法来寻找有效的防御手段,同时可以把网络安全领域的防御思想加到AI系统的建设上来,在系统的研发过程中引入SDL规范,如增加敏感数据检测、适当进行对抗样本训练、进行软件层面的库和框架及时更新等。
AI安全是一项新技术,在多个层面都需要考虑安全问题。本书第1章是对AI安全发展的概要性介绍;第2~3章从数据层面讨论对抗样本、数据样本的安全问题;第4~5章从模型层面讨论模型后门和预训练模型的安全问题;第6~7章从应用角度讨论隐私窃取和应用失控问题。同时,在阐述过程中我们精选多个实战案例,力求把数据、算法、模型、应用等层面的安全问题向读者展示出来。
AI安全的发展在未来势必会迎来更加严峻的挑战,我们将自己的研究成果在本书中进行分享,敬请读者批评指正。希望能借此书,与同行共同推动AI安全的发展和进步。最后衷心感谢电子工业出版社所给予的支持。感谢付出了大量时间和精力完成本书的同事,他们是杨勇、朱季峰、唐梦云、徐京徽、宋军帅、李兆达、骆克云。
腾讯安全朱雀实验室