本书主要介绍恶意流量的欺诈手段和对抗技术,分为5个部分,共12章:先讲解流量安全基础;再基于流量风险洞察,讲解典型流量欺诈手段及其危害;接着从流量数据治理层面,讲解基础数据形态、治理和特征工程;然后重点从设备指纹、人机验证、规则引擎、机器学习对抗、复杂网络对抗、多模态集成对抗和新型对抗等方面,讲解流量反欺诈技术;最后通过流量情报与运营体系来迭代和优化流量反欺诈方案。
1. 市面上新出的有关流量安全的业务实战级的指导图书。
2. 本书来自于互联网一线大厂多年来流量反欺诈对抗风控经验总结,带领读者深入了解流量安全全貌。
3. 本书对技术的讲解融入在真实业务对抗场景中,更具独特性和实操性。
4. 基于《大数据治理与防范——反欺诈体系建设》(豆瓣9.2分)的基础理论体系,帮助读者建立大数据安全思维,手把手教读者搭建大数据安全场景下的流量反欺诈系统。
张凯,现任腾讯专家工程师。一直从事大数据安全方面的工作,积累了10多年的黑灰产对抗经验,主要参与过游戏安全对抗、业务防刷、金融风控和反诈骗对抗系统等项目。
周鹏飞,现任腾讯高级工程师。主要从事大数据安全方面的工作,积累了多年黑灰产对抗经验,参与过游戏安全对抗、金融风控、业务防刷、广告反作弊、电信反诈和风险情报等项目。
杨泽,现任腾讯研究员。主要从事金融风控、黑灰产对抗等业务安全工作。
郝立扬,现任腾讯研究员。主要从事反诈骗、反赌博等业务安全工作。
熊奇,现任腾讯专家工程师。一直从事业务安全方面的工作,先后参与过反诈骗、App安全、金融反诈、安全大数据合规与业务风控等项目,积累了15年的黑灰产对抗和安全系统架构的经验。
第 1部分 流量安全基础
第 1章 绪论 2
1.1 互联网流量的发展历程 2
1.1.1 PC互联网时代 3
1.1.2 移动互联网时代 4
1.1.3 云计算和大数据时代 5
1.2 大数据时代的流量欺诈问题 6
1.3 大数据时代的流量反欺诈挑战 7
1.3.1 监管层面 7
1.3.2 行业层面 8
1.3.3 业务层面 8
1.4 流量反欺诈系统的架构 9
1.4.1 流量反欺诈方案的演变历程 9
1.4.2 流量反欺诈系统的架构 11
1.5 小结 13
第 2部分 流量风险洞察x
第 2章 流量欺诈手段及其危害 16
2.1 流量前期欺诈 17
2.1.1 推广结算欺诈 17
2.1.2 注册欺诈 21
2.1.3 登录欺诈 22
2.2 流量中期欺诈 24
2.2.1 “薅羊毛”欺诈 24
2.2.2 刷量欺诈 25
2.2.3 引流欺诈 27
2.3 流量后期欺诈 30
2.3.1 电信诈骗 30
2.3.2 资源变现欺诈 31
2.4 欺诈收益分析 33
2.5 小结 34
第3部分 流量数据治理
第3章 流量数据治理和特征工程 36
3.1 基础数据形态 36
3.1.1 流量前期数据 37
3.1.2 流量中期数据 37
3.1.3 流量后期数据 39
3.1.4 流量数据特性对比 40
3.2 数据治理 41
3.2.1 数据采集 41
3.2.2 数据清洗 42
3.2.3 数据存储 43
3.2.4 数据计算 44
3.3 特征工程 45
3.3.1 特征构建 45
3.3.2 特征评估与特征选择 46
3.3.3 特征监控 48
3.4 小结 49
第4部分 流量反欺诈技术
第4章 设备指纹技术 52
4.1 设备指纹的价值 52
4.2 技术原理 54
4.2.1 基础概念 54
4.2.2 发展历程 55
4.2.3 生成方式 56
4.3 技术实现方案 58
4.3.1 评估指标 58
4.3.2 构建特征 59
4.3.3 生成算法 60
4.4 小结 64
第5章 人机验证 65
5.1 人机验证基础 65
5.1.1 验证码的诞生 65
5.1.2 验证码的应用场景 66
5.1.3 验证码的构建框架 67
5.2 基础层面的攻防 68
5.3 设计层面的攻防 69
5.3.1 字符验证码 70
5.3.2 行为验证码 73
5.3.3 新型验证码 75
5.4 小结 77
第6章 规则引擎 78
6.1 风险名单 78
6.1.1 风险名单基础 78
6.1.2 风险名单的攻防演进 79
6.1.3 风险名单上线和运营 80
6.2 通用规则 82
6.2.1 IP策略的攻防演进 83
6.2.2 设备策略的攻防演进 87
6.2.3 账号策略的攻防演进 90
6.3 业务定制规则 94
6.3.1 规则智能预处理模块 95
6.3.2 规则智能构建模块 96
6.3.3 规则智能筛选模块 96
6.3.4 其他模块 97
6.4 小结 97
第7章 机器学习对抗方案 98
7.1 无样本场景 99
7.1.1 传统统计检验方案 101
7.1.2 无监督学习方案 102
7.2 单样本场景 104
7.2.1 传统半监督学习方案 105
7.2.2 行为序列学习方案 107
7.3 多样本场景 112
7.3.1 二分类模型与回归模型 113
7.3.2 可解释性判别场景 114
7.3.3 集成模型 117
7.4 小结 122
第8章 复杂网络对抗方案 123
8.1 流量前期方案 124
8.1.1 单维资源聚集的团伙检测 125
8.1.2 多维资源聚集的团伙检测 129
8.2 流量中期方案 133
8.2.1 结构相似性团伙检测 134
8.2.2 欺诈资源家族检测 138
8.3 流量后期方案 141
8.4 小结 145
第9章 多模态集成对抗方案 146
9.1 多模态数据来源 147
9.1.1 关系图谱信息 147
9.1.2 文本信息 148
9.1.3 图像信息 149
9.1.4 其他模态信息 149
9.2 多模态融合方案 150
9.2.1 数据层融合 151
9.2.2 特征层融合 152
9.2.3 决策层融合 154
9.2.4 混合融合方案 156
9.3 小结 157
第 10章 新型对抗方案 158
10.1 联邦学习 158
10.1.1 联邦学习框架 159
10.1.2 异常流量的检测效果 161
10.2 知识蒸馏 162
10.2.1 知识蒸馏框架 162
10.2.2 异常流量检测的步骤 164
10.2.3 异常流量检测的效果 164
10.3 小结 165
第5部分 运营体系与知识情报
第 11章 运营体系 168
11.1 稳定性运营 169
11.1.1 服务稳定性 171
11.1.2 数据稳定性 173
11.2 防误报处理 175
11.2.1 疑似白名单 176
11.2.2 自动化运营 177
11.3 用户反馈处理 177
11.3.1 用户申诉处理 178
11.3.2 用户举报处理 179
11.4 告警处理体系 179
11.5 小结 181
第 12章 知识情报挖掘与应用 182
12.1 黑灰产团伙情报挖掘 183
12.1.1 “薅羊毛”情报 184
12.1.2 水军刷评论情报 187
12.2 黑灰产行为模式情报挖掘 189
12.2.1 短视频平台养号 189
12.2.2 广告点击欺诈 191
12.3 黑灰产价格情报挖掘 193
12.4 小结 194