本书简要阐述了数据治理的基本概念及相关理论,侧重于数据质量管理和数据集成两方面,介绍相关基本理论的同时,详细描述了自主研发的数据质量管理系统和多源数据汇集处理系统。基于这些数据治理软件,结合具体的实际案例,详细描述了数据质量管理与数据集成的典型功能。本书案例内容丰富,步骤翔实具体,有助于读者在理解数据质量管理和数据集成的基本理论的同时,能较全面地掌握数据质量管理与数据集成软件的常用功能及其操作方法。
本书既可以作为高等院校信息管理与信息系统、信息资源管理、大数据工程以及计算机信息管理等专业本科生的教材或辅助读本,也可以作为企事业单位信息管理工作人员的培训教材。
随着信息量的剧增带来巨大的数据价值,人们已经意识到挖掘数据价值的重要性,但如何实现数据价值的最大化,始终未得到完美解决。由于各企业和部门之间的相互独立,容易造成信息系统之间的不兼容,数据结构存在较大差异,数据难以共享,形成信息的孤岛效应。为解决在获取数据价值过程中出现的这些典型难题,数据治理技术得到快速发展。数据治理从数据的全生命周期的各个环节做出专业的管理。
本书重点介绍了数据治理中的两种常用的治理技术——数据质量管理和数据集成,并在自主研发的平台上基于典型的案例实现数据质量的管理和数据的集成。数据质量管理能够确保数据模式和数据实例的一致性、正确性、完整性和最小性。数据集成可将分散的若干个数据源中的数据逻辑地或物理地集成到一个统一的数据集合体中,以统一的视图对外提供数据服务。因此,本书分为数据治理概述、数据质量管理、数据集成等三部分。
第1部分数据治理概述共1章(第1章),介绍了不同机构体系对数据治理概念的理解,并从四个方面提出对数据治理定义的理解。在进行数据治理时,不同的机构体系都遵循一定的基本原则,具体阐述了COBIT5提出的五项原则。针对不同领域或行业,设计的数据治理模型会有所区别,IBM数据治理委员会提出了在业界认可度较高的数据治理模型。该模型从11个数据治理成熟度类别来度量数据治理能力。数据治理的步骤主要阐述了IBM数据治理委员会提出的统一流程。
第2部分数据质量管理共3章(第2~4章),介绍了数据质量常见的三种定义,具体阐述了数据质量的问题分类以及评价数据治理的标准。数据清洗主要研究如何检测并消除数据中的错误和不一致等质量问题。根据常见的数据治理问题,如数据缺失、数据记录相似或重复、数据异常、数据逻辑错误等,提供了相应的数据清洗方法,同时总结了提高数据清洗效率的典型流程。数据质量管理系统是一款通过对数据质量建立各个指标维度后进行质量评估最终实现数据清洗的软件系统,主要分为用于管理不同类型数据源的数据源管理、用于元数据查看预览的数据剖析、用于指标体系建立与维护以及支撑整个评估流程的数据质量评估、用于对完成数据评估的数据进行清洗的数据清洗、用于系统基本功能设置以及用户设置的系统设置等五大功能。基于数据质量管理系统,以教师信息为依托,介绍了常用的数据质量管理的操作流程,以及检查算子的开发方法。
第3部分数据集成共3章(第 5~7 章),介绍了数据集成的概念,虚拟视图和物化及其混合的集成方法,以及数据集成的开发生命周期。多源数据汇集处理系统是一款基于 Kettle软件改造的专用数据集成软件,其核心功能和运行模式与Kettle基本一致。它能够以普通人员、专业数据人员、开发者等不同身份操作软件的功能。在该软件上,详细介绍了表属性的计算汇总、表数据分组统计、表间数据关联、脚本处理、多表数据合并、字段合并与数据分流、数据范围标识等典型数据集成方法,并阐述了这些典型方法的综合运用。
本书由陈刚负责全面筹划、设计工作,其中第1、3、4章由陈刚负责编写,第5、6、7章由郝建东负责编写,第2章由张中辉负责编写,胡琨和于坤参与了部分章节的编写,郝建东负责统稿、校验、修订等工作。
本书既可以作为高等院校信息管理与信息系统、信息资源管理、大数据工程以及计算机信息管理等专业本科生的教材或辅助读本,也可以作为企事业单位信息管理工作人员的培训教材,在理解数据治理,特别是数据质量管理和数据集成的相关理论的同时,通过数据质量管理和数据集成的典型软件,掌握数据治理的常用方法,提高实践操作能力。
由于编者水平有限、编写时间紧迫,加之数据工程理论与技术不断发展,书中难免存有错误和不妥之处,敬请专家和广大读者不吝批评指正。编者将进一步完善和充实本书的内容。
编著者
2021年5月于南京