本书介绍了数据工程的基本概念和理论基础,围绕数据资源建设的规划和管理问题,介绍数据资源规划和管理的概念、特征、作用和功能,系统介绍了数据资源规划理论的发展过程、核心思想基础、主流方法体系和具体实施步骤,以及数据资源管理涉及的治理、质量、集成等理论知识、支撑平台、关键技术和主流工具。本书内容划分为数据工程基础篇、数据资源规划篇、数据资源管理篇三个部分,其中数据工程基础篇涵盖数据工程概述、数据标准、数据模型等内容,数据资源规划篇涵盖数据资源规划理论、规划方法、需求分析、模型构建、实践与工具等内容,数据资源管理篇涵盖数据治理、数据质量管理、数据集成、数据中台等内容。
本书既可以作为高等院校信息管理与信息系统、信息资源管理、大数据工程以及计算机信息管理等专业本科生的教材,还可以作为企事业单位信息管理工作人员和设计开发人员的培训教材。
信息化是世界经济和社会发展的必然趋势。近年来,在党中央、国务院的高度重视和正确领导下,我国信息化建设取得积极进展,信息技术对提升工业技术水平、创新产业形态、推进经济社会发展发挥了重要作用。信息技术已成为经济增长的倍增器、发展方式的转换器、产业升级的助推器。
从2000年开始,我们就从事数据工程的技术理论和工程实践方面的研究,并完成了多项大型数据工程的规划、设计与实施工作,积累了一些宝贵的经验。这期间,深刻感到在数据资源规划和管理等诸多环节缺乏理论指导,设计建设的成果依赖个人经验的情况比较普遍,不同时期和不同团队规划设计的数据资源体系难以继承共享,整体的建设水平还在底水平徘徊,严重制约信息化建设的整体质量效益。如何有效解决上述难题,真正促进数据工程领域数据资源建设走上规范化建设的道路,发挥和释放信息化建设的动能,成为我们每个数据工程建设人必须思考和解决的重要课题。同时课题组这些年通过工作实践积累了一些有益的经验,希望把我们的一些经验共享出来,为此促使我们有了出一本《数据资源规划与管理实践》相关教材的愿望。《数据资源规划与管理实践》主要涉及了三个方面的主题:一是数据工程基础,从整体和共性的角度,介绍数据工程的基础概念、体系建设,重点介绍数据标准和数据模型等数据工程共性技术,支撑数据资源规划和管理实践;二是数据资源规划,数据资源规划是数据工程建设的个步骤,数据资源规划的质量好坏直接影响后续数据工程建设的质量,通过科学的数据资源规划需求分析、数据资源规划实践和模型构建,确保数据资源规划能够满足高质量数据持续建设和高效共享的需要;三是数据资源管理,数据资源管理的概念非常宽泛,本书侧重解决数据资源管理中的治理问题,主要解决在异构和低质量的数据环境下,如何通过数据质量管理、数据集成等方法手段,利用数据中台的体系化解决方案,提升数据资源的整体质量,挽救历史遗留的数据资产,提升遗留数据的价值。同时,这期间围绕数据工程领域一些新的理论方法不断被提出,从而为《数据资源规划与管理实践》能以较完整的理论体系呈现给大家提供了重要支撑。
《数据资源规划与管理实践》是一本全面介绍数据资源规划与管理的概念、原理与技术方法的综合性教材。读者在阅读本书后,能够较全面地了解数据资源建设的基本方法和软件工具,可以指导数据工程领域大型项目的建设和实践,也可以促进大家重视数据资源规划和管理工作。
本书由陈刚担任主编,负责全面筹划、设计、统稿。郝建东、张中辉、郝文宁等担任副主编,参与本书的具体编写工作和设计工作。本书内容共分12章,各章的简要内容如下。
第1章是数据工程概述。围绕数据工程的基本概念渐次展开,首先介绍通用的数据工程概念,包括数据的定义和生命周期,数据工程的定义和内涵;接着讨论数据工程体系建设的架构和建设内容;后重点介绍我国数据工程建设的现状与发展以及美军数据工程建设的发展历程。
第2章主要介绍数据的标准化。首先介绍标准和标准化的概念,以及数据标准化和数据标准体系等内容;然后分别介绍元数据标准和数据元标准化的相关内容,从概念、组成、描述方法等方面进行详细的描述;后介绍数据分类与编码的相关知识。
第3章主要介绍数据模型。首先介绍数据模型的基本概念和三个层次数据模型的特点;然后介绍四种数据建模的标记符号,并对这四种建模的标记符号的应用场景进行比较分析。
第4章主要介绍数据资源规划理论。首先介绍数据资源规划的由来和产生的背景;然后介绍数据资源规划的概念、核心思想和主要作用;接着介绍数据资源规划的理论基础,包括信息生命周期管理理论、信息工程和战略数据资源规划理论,以及信息资源管理和数据资源管理标准化理论。
第5章主要介绍数据资源规划方法。首先介绍数据资源规划方法的基本情况,对国外和国内的方法进行对比介绍;然后重点介绍基于稳定信息过程、基于稳定信息结构、基于指标能力三种数据资源规划方法;后对三种方法的特点和应用场景进行分析比较。
第6章主要介绍数据资源规划的需求分析方法。首先介绍需求分析的基本概念,以及与软件工程的需求分析思路的差异;然后介绍需求获取的四种主要方法,包括访谈、快速原型系统法、简易的应用规格说明技术和数据流图法;接着介绍需求分析工具数据流图,以及数据字典的制定和设计方法,通过案例指导大家利用数据流图描述需求;后介绍用户视图分析技术。
第7章主要介绍数据资源规划的模型构建。首先介绍数据模型构建的类型,然后分别介绍关系模型、维度模型、基于本体的数据模型构建技术。
第8章主要介绍数据资源规划实践和工具。首先围绕演训数据资源建设需求,采用基于稳定信息过程的数据资源规划方法,设计了数据资源规划的实践案例;然后分别介绍早期数据资源规划工具IRP 2000和作者所在本单位开发的数据资源规划工具。
第9章主要介绍数据治理的相关理论方法。首先介绍数据治理的基本概念、数据治理的要素;然后详细介绍数据治理的实施方法和流程,包括14个基本步骤;后介绍大数据治理相关知识,包括大数据治理的基本概念和相关的技术框架。
第10章主要介绍数据质量管理的相关技术。首先介绍数据质量的基本概念和数据质量的问题,以及数据质量衡量的维度;接着介绍数据质量中的处理技术数据清洗,包括数据清洗的定义、方法和流程,并重点介绍缺失数据处理技术;后介绍六款主流的数据质量工具,帮助大家了解各种数据质量工具的特点和主要功能,并有针对性地解决数据质量问题。
第11章主要介绍数据集成的相关技术。首先介绍数据集成的概念,接着介绍数据集成的主要方法,包括虚拟视图法、物化方法、混合型集成方法,然后介绍数据集成开发生命周期和相关数据集成技术;后介绍三款数据集成产品,包括Kettle工具、DataX工具、PowerCenter工具。
第12章主要介绍数据中台架构和技术。首先介绍数据中台的概念发展和主要功能;接着介绍数据中台的架构,以及数据中台架构的核心内容;然后介绍数据中台建设基本步骤,以及数据中台的支撑技术;后介绍两款数据中台产品:阿里云上数据中台和网易数据中台。
由于作者水平有限,加之信息技术发展日新月异,特别是一些的数据资源规划与管理技术理念没有完全整合到本书中,同时书中难免有错误与不妥之处,敬请读者批评指正。
有关反馈信息或索取相关配套教学资源,可与本书责任编辑联系,邮箱:764070006@qq.com。
编 者
2021年7月于南京
第1篇 数据工程基础
第1章 数据工程概述 3
1.1 数据工程相关概念 3
1.1.1 数据的定义和生命周期 3
1.1.2 数据、信息、知识和智慧 4
1.1.3 数据工程的定义和内涵 5
1.2 数据工程的体系建设 6
1.2.1 总体架构 6
1.2.2 数据工程的体系维 7
1.2.3 数据工程的标准维 9
1.2.4 数据工程的技术维 10
1.3 数据工程建设现状与发展 11
1.3.1 我国数据工程建设的现状与发展 11
1.3.2 美军数据工程建设的发展历程 14
1.4 小结 18
习题 18
第2章 数据标准 19
2.1 概述 19
2.1.1 标准和标准化的基本概念 19
2.1.2 数据标准化概述 21
2.1.3 数据标准体系 22
2.2 元数据标准化 24
2.2.1 元数据基本概念 24
2.2.2 典型元数据标准 27
2.2.3 元数据标准的分类与管理 30
2.2.4 元数据标准参考框架 32
2.3 数据元标准化 35
2.3.1 数据元概述 35
2.3.2 数据元的基本属性 39
2.3.3 数据元的命名和定义 41
2.3.4 数据元的表示格式和值域 43
2.3.5 数据元间的关系 46
2.4 数据分类与编码 47
2.4.1 数据分类的基本原则和方法 47
2.4.2 数据编码的基本原则和方法 49
2.5 小结 53
习题 54
第3章 数据模型 55
3.1 数据模型基本概念 55
3.1.1 概念模型 55
3.1.2 逻辑模型 56
3.1.3 物理模型 58
3.2 数据建模标记符号 59
3.2.1 实体?联系图标记符号 59
3.2.2 IDEF1x标记符号 60
3.2.3 信息工程标记符号 63
3.2.4 UML数据模型标记符号 65
3.2.5 标记符号的补充说明 66
3.3 数据模型描述方法 67
3.3.1 概念模型描述方法 67
3.3.2 逻辑模型描述方法 68
3.3.3 物理模型描述方法 70
3.3.4 数据字典描述方法 70
3.4 小结 71
习题 71
第2篇 数据资源规划
第4章 数据资源规划理论 75
4.1 数据资源规划的由来 75
4.1.1 失败的案例 75
4.1.2 应用积压严重 76
4.1.3 应用开发效率低 76
4.1.4 系统维护的困难 76
4.2 数据资源规划的概念和作用 77
4.2.1 数据资源规划概念的提出 77
4.2.2 数据资源规划的定义 78
4.2.3 数据资源规划的核心思想 79
4.2.4 数据资源规划的作用 79
4.3 数据资源规划的理论基础 79
4.3.1 信息生命周期管理理论 80
4.3.2 信息工程和战略数据资源规划理论 81
4.3.3 信息资源管理和数据资源管理标准化理论 84
4.4 小结 86
习题 86
第5章 数据资源规划方法 87
5.1 基于稳定信息过程的数据资源规划方法 87
5.1.1 方法概述 87
5.1.2 具体步骤 88
5.2 基于稳定信息结构的数据资源规划方法 92
5.2.1 方法概述 92
5.2.2 具体步骤 92
5.3 基于指标能力的数据资源规划方法 94
5.3.1 方法概述 94
5.3.2 具体步骤 95
5.4 数据资源规划方法比较 96
5.5 小结 96
习题 97
第6章 数据资源规划的需求分析 98
6.1 需求分析基本概念 98
6.2 需求获取方法 99
6.2.1 访谈 99
6.2.2 快速原型系统法 99
6.2.3 简易的应用规格说明技术 100
6.2.4 数据流图法 101
6.3 需求分析工具数据流图 102
6.3.1 数据流图的符号 102
6.3.2 数据流图设计步骤 103
6.3.3 数据字典 106
6.4 用户视图分析技术 108
6.4.1 用户视图概念 108
6.4.2 数据结构规范化 110
6.4.3 用户视图整理模式 114
6.5 小结 116
习题 116
第7章 数据资源规划的模型构建 118
7.1 数据模型构建的类型 118
7.1.1 层次模型和网状模型 118
7.1.2 关系模型 118
7.1.3 多维数据模型 119
7.1.4 DataVault数据模型 119
7.1.5 Anchor模型 119
7.1.6 基于本体的数据模型 119
7.2 关系模型构建技术 120
7.2.1 关系模型的基本概念 120
7.2.2 关系模型的构建步骤 121
7.3 维度模型构建技术 123
7.3.1 维度模型的基本概念 123
7.3.2 维度模型构建的基本步骤 123
7.4 基于本体的数据模型构建技术 125
7.4.1 本体的基本概念 125
7.4.2 本体的构建原则与步骤 126
7.4.3 基于本体的数据模型构建 127
7.5 小结 128
习题 128
第8章 数据资源规划实践和工具 129
8.1 数据资源规划实践案例 129
8.1.1 确定职能域 129
8.1.2 职能域业务分析,并确定其业务活动 129
8.1.3 职能域数据分析 132
8.1.4 建立领域的数据资源管理基础标准 134
8.2 数据资源规划工具IRP 2000 139
8.3 新版数据资源规划工具 143
8.4 小结 146
习题 146
第3篇 数据资源管理
第9章 数据治理 149
9.1 数据治理概述 149
9.1.1 数据治理的基本概念 149
9.1.2 相关概念辨析 150
9.1.3 数据治理要素 152
9.2 数据治理实施方法 153
9.2.1 定义业务问题 153
9.2.2 获取高层支持 154
9.2.3 评估成熟度 154
9.2.4 创建路线图 154
9.2.5 建立组织蓝图 154
9.2.6 创建数据字典 154
9.2.7 理解数据 154
9.2.8 创建元数据仓库 155
9.2.9 定义度量标准 155
9.2.10 主数据治理 155
9.2.11 治理分析 155
9.2.12 安全与隐私管理 155
9.2.13 信息生命周期管理 156
9.2.14 测量结果 156
9.3 大数据治理概述 156
9.3.1 大数据治理的基本概念 156
9.3.2 大数据治理的技术框架 159
9.4 小结 168
习题 168
第10章 数据质量管理 169
10.1 数据质量概述 169
10.1.1 数据质量定义 169
10.1.2 数据质量问题来源 169
10.1.3 数据质量问题分类 170
10.1.4 数据质量衡量维度 171
10.2 数据清洗 171
10.2.1 数据清洗定义 172
10.2.2 数据清洗方法 172
10.2.3 缺失数据处理 172
10.2.4 重复数据处理 176
10.2.5 异常数据处理 181
10.2.6 逻辑错误数据处理 182
10.2.7 数据清洗流程 183
10.3 数据质量工具 185
10.3.1 SAS/DataFlux 公司产品 185
10.3.2 Informatica公司产品 185
10.3.3 IBM公司产品 186
10.3.4 Oracle公司产品 186
10.3.5 Talend公司产品 187
10.3.6 Data Cleaner 187
10.4 小结 188
习题 188
第11章 数据集成 189
11.1 数据集成概述 189
11.1.1 数据集成的概念 189
11.1.2 数据集成的挑战 190
11.2 数据集成主要方法 191
11.2.1 虚拟视图方法 191
11.2.2 物化方法 192
11.2.3 混合型集成方法 194
11.3 数据集成开发生命周期 194
11.4 数据集成技术 195
11.4.1 ETL技术 195
11.4.2 实时数据集成技术 197
11.4.3 数据虚拟化技术 198
11.5 数据集成产品介绍 199
11.5.1 Kettle工具 199
11.5.2 DataX工具 200
11.5.3 Informatica PowerCenter工具 201
11.6 小结 204
习题 204
第12章 数据中台 205
12.1 数据中台概述 205
12.1.1 数据中台的概念 206
12.1.2 数据中台的发展 206
12.1.3 数据中台的功能 207
12.2 数据中台的架构 207
12.2.1 数据采集与集成 208
12.2.2 数据加工 209
12.2.3 数据资产体系构建 209
12.2.4 数据资产管理 210
12.2.5 数据服务 211
12.3 数据中台的建设 212
12.3.1 需求调研 212
12.3.2 需求分析 212
12.3.3 数据中台架构设计 212
12.3.4 实施数据中台建设 214
12.3.5 运行维护数据中台 214
12.4 数据中台的支撑技术 214
12.4.1 数据采集技术 214
12.4.2 数据存储技术 215
12.4.3 数据挖掘技术 216
12.4.4 大数据计算技术 217
12.4.5 数据服务技术 217
12.5 典型数据中台的介绍 218
12.5.1 阿里云上数据中台 218
12.5.2 网易数据中台 219
12.6 小结 220
习题 220
参考文献 221