本书结合健康医疗大数据的具体应用环境,分析其特定的安全需求,系统介绍认证、授权与访问控制、数据隐藏与加密、网络安全、集群监控与日志审计等多方面技术,设计符合安全需求的健康医疗大数据安全体系。结合*的属性基加密和隐私保护等关键技术介绍相关方法,并且引入*的渗透测试技术进行测试。
尚涛,2006年博士毕业于日本高知工科大学系统工程专业,现为北京航空航天大学网络空间安全副教授,中国电子学会信息论分会 委员,中国人工智能学会 智能机器人专业委员会 委员;主持国家重点研发计划项目子课题、国家自然科学基金面上项目、国际合作、教育部留学回国人员科研启动基金项目、中国博士后科学基金项目、国防863计划项目、中央高校基本科研业务费专项资金项目等多项。
第1章 绪论1
1.1 大数据的特点1
1.2 大数据平台2
1.3 医疗健康大数据的应用需求3
1.4 国外研究现状及趋势5
1.5 国内研究现状及趋势6
第2章 大数据平台Hadoop的系统构成9
2.1 Hadoop组件9
2.1.1 HDFS9
2.1.2 MapReduce10
2.1.3 HBase11
2.2 伪分布式Hadoop环境部署12
2.3 分布式Hadoop环境部署16
2.4 分布式MongoDB环境部署18
2.4.1 MongoDB18
2.4.2 环境设置20
2.4.3 集群搭建20
2.4.4 挂载磁盘26
第3章 大数据平台Hadoop的安全机制28
3.1 概述28
3.2 Hadoop安全机制29
3.2.1 基本的安全机制29
3.2.2 总体的安全机制30
3.3 Hadoop组件的安全机制31
3.3.1 RPC安全机制31
3.3.2 HDFS安全机制31
3.3.3 MapReduce安全机制34
3.4 Hadoop的安全性分析36
3.4.1 Kerberos认证体系的安全问题36
3.4.2 系统平台的安全问题36
3.5 Hadoop安全技术架构37
3.6 安全技术工具39
3.6.1 系统安全39
3.6.2 认证授权40
3.6.3 数据安全42
3.6.4 网络安全44
3.6.5 其他集成工具45
第4章 大数据系统安全体系47
4.1 概述47
4.2 相关研究47
4.3 大数据面临的安全挑战50
4.4 大数据安全需求51
4.5 大数据安全关键技术53
4.6 大数据系统安全体系框架56
第5章 大数据系统身份认证技术59
5.1 概述59
5.2 Kerberos认证体系结构59
5.3 身份认证方案61
5.4 身份认证方案实现63
5.5 Kerberos常用操作68
5.5.1 基本操作68
5.5.2 操作流程69
第6章 大数据系统访问控制技术71
6.1 概述71
6.2 基于角色的访问控制方案72
6.3 XACML语言框架73
6.3.1 访问控制框架73
6.3.2 策略语言模型74
6.4 基于XACML的角色访问控制方案实现75
6.4.1 角色访问控制策略描述75
6.4.2 角色访问控制策略实现76
6.4.3 角色访问控制策略测试77
6.5 Sentry开源组件79
6.6 基于Sentry的细粒度访问控制方案80
6.6.1 加入环境属性约束的访问控制模型80
6.6.2 MySQL安装配置81
6.6.3 Hive安装配置83
6.6.4 Sentry安装配置85
6.6.5 细粒度访问控制模块实现88
第7章 大数据系统数据加密技术93
7.1 概述93
7.2 透明加密93
7.3 存储数据加密方案实现95
7.3.1 实现步骤95
7.3.2 参数说明97
7.3.3 功能测试97
7.4 SSL协议98
7.4.1 SSL协议体系结构98
7.4.2 SSL协议工作流程99
7.4.3 Hadoop平台上SSL协议配置99
7.5 传输数据加密方案实现100
7.5.1 传输数据加密需求100
7.5.2 Hadoop集群内部节点之间数据传输加密配置101
7.5.3 Hadoop总体加密配置102
第8章 大数据系统监控技术103
8.1 概述103
8.2 Ganglia开源工具103
8.3 Ganglia环境部署104
8.3.1 Ganglia测试集群rpm包安装方式104
8.3.2 Ganglia测试集群编译安装方式109
8.4 Ganglia配置文件112
8.4.1 gmond配置文件112
8.4.2 gmetad配置文件121
8.4.3 gweb配置文件122
8.5 基于Ganglia的状态监控方案实现122
8.5.1 实现步骤122
8.5.2 功能测试123
8.6 基于Zabbix的监控报警方案实现124
8.6.1 Zabbix简介124
8.6.2 Zabbix安装配置124
8.6.3 Web界面操作127
第9章 大数据系统审计技术136
9.1 概述136
9.2 审计方案137
9.3 开源软件ELK138
9.4 ELK安装配置139
9.4.1 Elasticsearch安装139
9.4.2 Logstash安装141
9.4.3 Kibana安装142
9.5 基于ELK的审计方案实现143
9.5.1 实现步骤143
9.5.2 功能测试143
第10章 大数据系统一体化安全管理技术146
10.1 概述146
10.2 网络结构设计146
10.3 安全模块设计148
10.4 软件开发架构151
10.5 软件运行流程152
10.6 软件界面153
10.7 软件测试159
第11章 大数据系统属性基加密关键技术163
11.1 概述163
11.2 预备知识164
11.2.1 群知识164
11.2.2 双线性配对165
11.2.3 拉格朗日插值定理165
11.2.4 访问结构165
11.3 属性基加密方案167
11.3.1 传统的属性基加密方案167
11.3.2 改进的属性基加密方案168
11.4 属性基加密方案的实现169
11.4.1 属性基加密算法169
11.4.2 属性基加密模块170
11.5 基于属性的大数据认证加密一体化方案172
11.5.1 方案整体架构172
11.5.2 方案运行流程173
11.5.3 安全性分析175
11.5.4 功能测试175
11.5.5 性能测试176
11.5.6 方案总结177
第12章 大数据系统远程数据审计关键技术178
12.1 概述178
12.2 远程数据审计方案179
12.2.1 基于两方模型的远程数据审计方案179
12.2.2 基于三方模型的远程数据审计方案180
12.2.3 远程数据审计方案需求181
12.3 预备知识181
12.3.1 密码学基础182
12.3.2 数据结构182
12.3.3 分布式计算框架184
12.3.4 系统审计模型185
12.4 单用户远程动态数据审计方案186
12.4.1 方案描述186
12.4.2 方案分析189
12.4.3 方案总结192
12.5 支持并行计算的单用户远程动态数据审计方案192
12.5.1 方案描述192
12.5.2 更新算法描述193
12.5.3 并行计算算法设计196
12.5.4 方案分析199
12.5.5 方案总结201
12.6 多用户远程动态数据审计方案201
12.6.1 方案描述202
12.6.2 动态更新204
12.6.3 方案分析206
12.6.4 方案总结209
第13章 大数据系统隐私保护关键技术210
13.1 概述210
13.2 隐私保护方案211
13.2.1 隐私保护研究现状211
13.2.2 隐私保护聚类技术研究现状212
13.2.3 隐私保护分类技术研究现状213
13.3 预备知识214
13.3.1 k-means算法214
13.3.2 决策树C4.5算法215
13.3.3 差分隐私216
13.4 面向聚类的隐私保护方案216
13.4.1 基于MapReduce框架的优化Canopy算法217
13.4.2 基于MapReduce框架的DP k-means算法218
13.4.3 实验结果218
13.5 面向分类的隐私保护方案219
13.5.1 等差隐私预算分配220
13.5.2 基于MapReduce的差分隐私决策树C4.5算法220
13.5.3 实验结果221
13.6 方案总结223
参考文献224