金融科技大数据风控方法介绍: 解释性、隐私保护与数据安全
本书是在大数据框架下,全面介绍金融科技在处理真实场景金融问题时需要掌握的最重要的几类机器学习方法,并将重点放在实施过程中需要用到的特征提取、可解释性、隐私保护与数据安全共享等相关内容的讨论上。
本书内容分三部分:第一部分由1~6章组成,主要讲常规情况下,机器学习在金融场景特别是大数据风控中的建模应用;第二部分由第7章和第8章组成,主要讲在数据隐私保护和安全要求下,机器学习如何进行大数据风控建模;第三部分由9~16章组成,主要讲如何基于吉布斯抽样算法建立特征提取的理论
和标准框架及其在包含投资和融资等7个不同金融场景中的应用。
本书具有五个特点:一是面向应用需求,介绍机器学习在金融场景特别是大数据风控中的建模应用;二是紧扣应用,聚焦智能投顾和大数据信用评价两大领域;三是针对算法,重点讲逻辑回归和集成学习建模;四是针对数据安全和隐私保护问题,建立密文机器学习模型,实现数据共享;五是针对特征工程,基于吉布斯抽样算法,建立支持非线性特征提取的理论和标准框架。
更多科学出版社服务,请扫码获取。
目录
序一
序二
前言
绪论 1
第一部分 机器学习及金融应用
第1章 机器学习与金融科技应用介绍 11
1.1 人工智能介绍.11
1.2 机器学习简介.13
1.2.1 什么是机器学习 13
1.2.2 机器学习建模简介 15
1.2.3 本节小结 17
1.3 机器学习大数据智能风控应用介绍 17
1.3.1 人工智能在金融机构风险管理中的应用 18
1.3.2 深度学习算法将会被广泛采用.19
1.3.3 大数据框架下的多种形态数据将会被广泛应用 21
1.3.4 基于网络的知识图谱(全息画像)形成落地解决方案 21
1.3.5 联邦学习方法将会大规模落地使用 22
1.3.6 人工智能方法在大数据风控面临的挑战 22
1.4 本章小结 27
练习题 28
第2章 逻辑回归 29
2.1 逻辑回归原理 29
2.1.1 逻辑回归简介 29
2.1.2 分类原理 30
2.1.3 示例 33
2.2 基于最优化方法的最佳回归系数确定 33
2.2.1 最优化问题 33
2.2.2 梯度下降法求解 34
2.2.3 模型的拟合优度评估 35
2.3 模型评估 36
2.4 多分类问题 48
2.4.1 多次逻辑回归 48
2.4.2 对逻辑回归模型进行扩展 49
2.5 逻辑回归评分卡 49
2.6 场景应用 51
2.6.1 数据描述 52
2.6.2 模型建立与评估 52
2.6.3 评分卡生成 54
2.7 本章小结 58
练习题 59
第3章 决策树 60
3.1 决策树模型的原理 60
3.2 特征选择 61
3.2.1 ID3 算法 62
3.2.2 C4.5 算法 63
3.2.3 CART 算法 64
3.2.4 不同决策树算法的比较 65
3.3 示例 65
3.4 过拟合与剪枝 70
3.4.1 预剪枝 70
3.4.2 后剪枝 71
3.5 场景应用 73
3.5.1 数据描述 73
3.5.2 模型建立与评估 73
3.6 本章小结 73
练习题 74
第4章 集成学习算法 75
4.1 随机森林 76
4.1.1 随机森林算法简介 76
4.1.2 场景应用 77
4.2 GBDT算法 78
4.2.1 GBDT算法简介 78
4.2.2 GBDT算法流程 79
4.2.3 GBDT示例 82
4.2.4 Shrinkage策略 .88
4.2.5 场景应用 88
4.3 XGBoost算法 89
4.3.1 XGBoost算法简介 89
4.3.2 XGBoost分类算法 90
4.3.3 XGBoost回归算法 100
4.3.4 XGBoost示例 100
4.3.5 场景应用 132
4.4 本章小结 133
练习题 133
第5章 机器学习模型的可解释性方法 135
5.1 可解释性理论 135
5.1.1 可解释性的重要性 135
5.1.2 可解释性的分类 136
5.1.3 解释的性质 136
5.2 可解释性方法 136
5.3 SHAP解释法 137
5.4 LIME解释法143
5.4.1 LIME算法特点 144
5.4.2 LIME实现步骤 144
5.4.3 LIME算法原理 144
5.5 SHAP与LIME解释法的对比 145
5.6 本章小结 147
练习题 147
第6章 大数据风控机器学习建模 148
6.1 标签设计 149
6.1.1 Vintage账龄分析 149
6.1.2 滚动率分析 151
6.1.3 好/坏/不确定定义 152
6.2 数据清洗 152
6.2.1 缺失值处理 152
6.2.2 同值化处理 153
6.2.3 标准化处理 153
6.3 特征工程概述 154
6.3.1 特征变量分箱 154
6.3.2 变量WOE转换 .155
6.3.3 IV值预测能力分析 155
6.3.4 相关性和关联性分析 156
6.3.5 VIF方差膨胀因子分析 158
6.4 模型训练与评估 159
6.4.1 模型建立 159
6.4.2 参数优化 159
6.5 模型验证 159
6.5.1 模型稳定性 159
6.5.2 模型区分能力 160
6.6 实证研究 162
6.6.1 数据来源与处理 162
6.6.2 特征工程 167
6.6.3 模型训练与评估 182
6.6.4 模型预测结果的解释 186
6.6.5 可解释性结果与样本真实分布的对比 199
6.7 本章小结 201
练习题 201
第二部分 隐私保护和数据安全背景下的机器学习及金融应用
第7章 同态加密机器学习建模 205
7.1 同态加密简介 205
7.1.1 几种主流全同态加密方案对比 206
7.1.2 CKKS加密方案应用 207目
7.2 密文逻辑回归模型构建 208
7.2.1 双方介绍 208
7.2.2 密文逻辑回归的建模过程 208
7.2.3 密文逻辑回归的预测过程 210
7.3 密文评分卡模型构建 211
7.3.1 研究目的 212
7.3.2 数据要求 212
7.3.3 必备文件和源代码 213
7.4 密文评分卡建模流程 214
7.4.1 双方介绍 214
7.4.2 模拟数据 215
7.4.3 密文评分卡自动化建模流程 215
7.5 本章小结 217
附录I 代码流程操作详解 217
练习题 227
第8章 联邦学习建模 228
8.1 联邦学习适用的场景 228
8.2 联邦学习的分类 228
8.3 联邦学习框架下的机器学习算法 230
8.3.1 纵向安全联邦逻辑回归 230
8.3.2 Secureboost 232
8.4 联邦学习实证 234
8.4.1 Secureboost示例 .234
8.4.2 场景应用 249
8.5 本章小结 253
练习题 254
第三部分 吉布斯抽样算法的特征提取及场景应用
第9章 吉布斯抽样方法和特征提取框架介绍 257
9.1 吉布斯抽样方法可以解决什么问题 257
9.2 逻辑回归模型框架下的关联特征的提取方法 259
9.3 实现吉布斯抽样特征提取的算法框架 261
9.4 集成学习模型框架下的关联特征提取步骤 263
9.5 本章小结 263
附录 II 支持关联特征提取的比值比指标介绍 264
练习题 265
第10章 筛选刻画FOF关联风险特征指标 266
10.1 基金自身关联风险因素介绍 267
10.2 影响基金的其他相关因素 268
10.3 筛选FOF关联特征的随机搜索算法框架建立 269
10.3.1 金融产品(基金)业绩相关特征提取的基本思路 269
10.3.2 非结构性数据特征提取推断算法框架 270
10.3.3 核心特征的提取与筛选 275
10.4 基于ROC曲线的AUC测试的特征表现 277
10.5 本章小结 283
练习题 283
第11章 筛选影响大宗商品价格变化的特征指标 285
11.1 大宗商品价格因素相关背景介绍 286
11.2 期货铜特征因子分析 288
11.2.1 大宗商品期货铜价格数据介绍 288
11.2.2 预测大宗商品期货铜价格变化趋势的关联特征因子 289
11.2.3 预测刻画影响铜价格变化的特征因子 290
11.3 本章小结 293
附录 III 支持特征提取的初始关联特征因子表 293
练习题 297
第12章 筛选影响螺纹钢期货价格变化的关联特征 298
12.1 螺纹钢背景综述 298
12.1.1 背景 298
12.1.2 影响螺纹钢价格因素研究现状简述 299
12.2 影响螺纹钢期货价格的因素分析 300
12.2.1 螺纹钢期货价格影响因素分析 300
12.2.2 构建初始特征池 301
12.2.3 影响螺纹钢期货价格的风险特征提取与分析方法 304
12.2.4 刻画螺纹钢期货价格变化实证分析 306
12.3 本章小结 312
练习题 313
第13章 筛选影响公司财务欺诈行为的关联特征 315
13.1 公司财务欺诈行为背景介绍 315
13.2 公司财务欺诈行为的特征指标 318
13.2.1 上市公司财务欺诈风险特征介绍 318
13.2.2 特征提取方法简介 319
13.3 建立全面刻画公司财务欺诈的预警体系 320
13.3.1 案例分析 321
13.3.2 公司监事关联性 322
13.3.3 建立有效预测财务欺诈框架 323
13.4 本章小结 324
练习题 324
第14章 针对上市公司财务欺诈行为的评估.326
14.1 基于舞弊三角理论的咖啡馆财务质量评估 327
14.1.1 财务舞弊与财务欺诈 327
14.1.2 舞弊三角理论 327
14.2 常见舞弊类型讨论 329
14.3 咖啡馆财务质量评估方法 330
14.3.1 基本思想陈述 330
14.3.2 核心指标 331
14.4 针对上市公司财务舞弊案例分析 332
14.4.1 压力与动机 332
14.4.2 机会与漏洞 333
14.4.3 态度与借口 334
14.4.4 结论和针对欺诈行为的特征刻画讨论 335
14.5 本章小结 336
练习题 337
第15章 筛选影响个人信用贷款的关联特征 338
15.1 背景 338
15.2 数据来源 339
15.3 算法选取:XGBoost与吉布斯算法的异同表现 339
15.4 筛选的数据结果与讨论 340
15.5 本章小结 345
练习题 345
第16章 建立刻画乡村农户贫困状态特征因子的筛选框架 346
16.1 背景 346
16.2 特征指标筛选与分析流程框架建立思路 349
16.2.1 基础指标池的构建 349
16.2.2 建立特征指标筛选框架的基本思路 350
16.2.3 针对特征指标的建模分析与甄别能力的有效性测试 350
16.3 支持特征提取的数据源样本描述 351
16.3.1 提取刻画乡村农户贫困状态特征的框架和分析 352
16.3.2 刻画农户贫困状态的特征指标的筛选结果 .356
16.3.3 刻画农户贫困状态特征指标甄别的有效性测试 357
16.4 结论的简要解读和讨论建议 359
16.5 本章小结 361
附录IV 描述农户贫困状态特征指标的基本定义和解释 362
练习题 363
参考文献 365
附录 A 基于Python语言对几种典型算法的基本功能代码实现 376
A.1 线性回归模型简介 376
A.2 线性分类模型简介 382
A.3 决策树模型简介 393
A.4 集成模型简介 404
A.4.1 引导聚集 404
A.4.2 梯度提升 408
A.4.3 LightGBM的超参数调整 409
A.4.4 集成模型用于分类 411
A.4.5 总结 412
A.5 神经网络模型简介 412
A.5.1 数据读取 413
A.5.2 多分类逻辑回归 416
A.5.3 分类模型的衡量 417
A.5.4 拟合不足与过拟合 419
A.6 深度学习介绍 433
A.6.1 近期人工智能热潮的关键推动力 433
A.6.2 金融服务: 工具赋能到知识赋能 435
A.6.3 基于深度学习的知识服务 435