在云计算和物联网等新兴信息技术高速发展的今天,由于半结构化数据具有灵活易扩展的存储结构,已被许多信息系统和应用作为公共数据模型,被广泛地用于大规模异构数据的使用场景中。几乎所有行业都制定了描述和共享本领域数据的半结构化数据模型应用标准。随着半结构化数据的广泛使用,如何对大规模半结构化数据进行有效的管理,在学术界是一个重要的研究课题,而在工业界又是一项具有广阔应用前景的技术。本书以XML为代表,探讨了大规模半结构化数据管理中的模式提取、节点编码、索引与查询处理等关键问题。本书既适合初学者作为基础学习资料,又适合科研人员作为理论研究教程,更适合从业人员作为技术参考书目。
随着互联网技术的飞速发展,传统的结构化数据模型已经无法满足人们对信息处理的要求。尤其是在云计算和物联网高速发展的今天,对管理半结构化数据、大规模信息处理等领域的研究越来越多地被关注。由于半结构化数据模型既能描述半结构化数据又能描述结构化数据,而且具有灵活易扩展的存储结构,其已被许多系统和应用作为公共数据模型,被广泛地用于异构数据量大的应用中。如今,几乎所有行业都制定了描述和共享本领域数据的半结构化数据模型应用标准。此外,由于半结构化数据模型具有易于描述结构、易于校验、易于展现等特点,许多原本是以非结构化方式进行存储的数据,也可以通过半结构化数据模型进行描述并存储。
因此,如何对大规模半结构化数据进行有效的管理,在学术界是一个重要的理论研究课题,同时在工业界又是一项具有广阔应用前景的技术。本书以XML为代表,探讨了大规模半结构化数据管理中的关键问题模式提取、节点编码、索引与查询处理等研究课题。本书主要内容如下:
(1)针对现有基于正则表达式的模式提取方法的不足之处,本书根据XML Schema规范中元素内容模型的特点,提出了XTree算法,该算法可以快速、准确地并发提取多个大规模(GB级)XML文档的结构。该算法与其他基于正则表达式的算法最显著的区别在于,XTree对于元素内容模型的提取加入了对元素内容模型是否有序的区分,降低了算法的时间复杂度和空间复杂度。
(2)针对现有半结构化数据节点编码方案的不足之处,本研究提出了D2编码方案,该算法在静态编码和动态编码中都表现出良好的性能,而且易于二进制串行化和反串行化,具有较高的实用价值。和其他半结构化数据节点编码方案相比,D2编码最显著的特点在于,突破了传统的以整数作为层标识的限制,采用二进制真分数作为层标识,由于真分数的取值区间是无穷的,所以可以保证在任意位置插入节点都存在有效的编码。
(3)本书综合考虑了目前已有的关系型数据库和大规模半结构化数据的索引技术的优缺点,提出一套完善的索引方案D2-Index索引策略,能够支持高效的查询处理。它并不只是使用了一种单一的索引技术,而是参考和借鉴了多种技术,如节点编码索引、结构索引和倒排索引等。D2-Index索引策略的最显著之处在于,它的索引文件包括了主索引、路径辅助索引和值辅助索引,这三种索引都采用分块存储的方式提高索引的查找和修改效率。此外,由于是基于D2编码方案的,所以D2-Index索引策略可以有效地支持节点的动态更新。
(4)根据目前对于大规模半结构化数据查询处理的研究,本书提出一种以D2-Index索引策略为基础,基于XPath表达式的CAS查询处理。这种查询处理最大的特点在于,将输入的合法CAS语句拆分为多个BXCAS语句,再对拆分的语句按顺序进行处理,根据D2-Index策略中的路径和值辅助索引,获取符合查询条件的节点的D2物理编码,再从主索引中获取其在源数据中的位置信息,最终以异步的方式输出结果。
张引(1986 ),男,江西九江人,理学博士,现为中南财经政法大学计算机科学与技术系副教授、硕士生导师,长期从事认知计算与智能服务领域的研究,目前主持国家自然科学基金项目2项、教育部人文社会科学研究项目1项;近5年共发表论文80余篇,其中SCI收录超过50篇,并有9篇论文入选ESI高被引论文。在《IEEE Network》《IEEE Access》等国际知名SCI期刊担任编委等职务,曾在《Future Generation Computer Systems》《IEEE IoT Journal》《Electronic Markets》等知名SCI/SSCI期刊担任客座编辑等职务;曾在多个国际学术会议担任大会主席等职务。2014年当选IEEE计算机协会大数据技术委员会副主席,2015年当选IEEE高级会员,2016年入选中南财经政法大学文澜学者计划,2017年入选湖北省楚天学者计划,2018年获得《IEEE Systems Journal》年度论文奖。
第一章半结构化数据的应用背景(1)
第一节研究背景(2)
第二节研究内容及意义(6)
一 研究内容(6)
二 研究意义(8)
第三节本书结构(9)
第二章半结构化数据的基础知识(12)
第一节半结构化数据的结构特征(12)
第二节半结构化数据的结构模型(15)
第三节半结构化数据的模式语言(16)
第四节半结构化数据的查询语言(17)
第五节半结构化数据的应用程序接口(19)
第三章半结构化数据的管理模型(22)
第一节半结构化数据模式提取的相关研究(23)
第二节半结构化数据节点编码的相关研究(26)
第三节半结构化数据索引的相关研究(27)
第四节半结构化数据查询处理的相关研究(30)
第四章半结构化数据的模式提取(33)
第一节半结构化数据的元素内容模型(34)
一半结构化数据的树状结构模型(34)
二半结构化数据的元素内容模型(36)
三提取大规模半结构化数据模式的质量标准(38)
第二节基于正则表达式的模式提取方法(39)
第三节基于集合/序列的模式提取方法XTree(48)
第四节实证研究(59)
第五节小结(72)
第五章半结构化数据的节点编码(75)
第一节半结构化数据节点编码的特点(76)
第二节D2编码方案(89)
第三节D2编码的二进制表示(95)
第四节实证研究(106)
第五节小结(109)
第六章半结构化数据的索引和查询处理(111)
第一节D2-Index索引策略(112)
第二节基于D2-Index索引策略的查询处理(130)
第三节实证研究(137)
第四节小结(140)
第七章半结构化数据与大数据(143)
第一节大数据时代来临(143)
第二节大数据基础(146)
第三节大数据应用(157)
第八章总结(187)
第一节主要内容(187)
第二节未来研究展望(189)