2015年11月,《中共中央关于制定国民经济和社会发展第十三个五年规划的建议》发布,继续强调了国家文化事业发展的重要战略意义,指出:“十三五”期间要继续展开文化体制改革,建设重大文化工程,完善公共文化的产业、市场和服务体系发展。而图书馆作为文化传播和保障公民文化需求的重镇,应继续发挥其优势,并不断发展和变革,为广大人民群众提供更优质的服务。
进入互联网时代,图书馆资源由传统的实体走向数字化和网络化,用户对信息的需求也由原来的信息查找转向对知识的获取与个性化服务。历年来,各地、各级单位图书馆的建设通过不断扩大其规模来满足读者的信息需求,但却造成“馆藏资源孤岛”和“馆藏资源超载”两大困境。而用户的需求不再仅仅是从无数馆藏中快速找到所要信息,还要求获得信息中蕴含的知识内容及逻辑关系,以进行知识的理解、使用和创造。针对图书馆的这种困境和数字化资源环境中用户更高的阅读需求等问题,通过多种途径、多种方法来揭示和关联日益丰富的数字资源,以利于用户对信息资源的有效获取和知识内容的共建共享。所以,如何对馆藏资源进行深层次揭示、聚合和有效地展示、利用成为业界关注的热点问题。
基于此,本书从理论、方法和实践角度探讨了如何从具有丰富语义信息的馆藏中进行资源的语义聚合和可视化展示,以期能够通过资源聚合更好地服务于用户。只有在馆藏资源的语义化基础上,才能通过共通的语义形式从多个方面对资源进行关联,进而实现从资源聚合到知识的创新。本书以用户需求为导向,采用用户行为、本体、关联数据等理论思想,以及相关方法工具,以探究馆藏的知识内容以及知识单元的语义关系,通过关联、聚类、融合和分类等过程,使得散乱和独立的资源再次组织成为一个有序整体,用以服务于用户对馆藏中所需的规律、模式、特色等知识单元以及知识之间的关联关系,最终实现基于语义的资源聚合和可视化展示平台。
全书共分为10章,每章的主要内容简述如下。
第1章,首先,从全局概述开展数字图书馆馆藏资源语义聚合的背景和意义,并从数字资源聚合、数字资源聚合的方式、数字资源聚合技术和数字资源聚合的实践探索四个角度对当前馆藏资源语义聚合的基本现状进行梳理和述评。其次,根据现有馆藏资源的聚合方式及存在问题,总结得出在关联数据基础上的资源聚合的优缺点,其后提出完善馆藏资源的服务内容的研究思路和方法。最后,对本书的主要内容及创新之处进行了总结。
第2章,分析了当前数字资源聚合的基本概念和方法,根据数字图书馆中资源聚合出现的问题,归纳了当前数字资源聚合所面临的困境。在用户行为相关研究的基础上,阐述了国内外学者对用户行为的不同认识,给出了本书对用户行为的理解。进一步分析基于用户行为的数字资源语义聚合理论框架,具体从用户行为定义、用户行为理论和方法、用户行为数据聚合三个方面做了详细阐述。
第3章,论述了基于语义的馆藏资源语义聚合的相关理论。首先,对语义网及语义标注相关理论进行了阐述,主要包括语义网的发展、语义标注相关技术,并厘清了元数据、本体及语义标注间的关系。其次,介绍了关联数据的概念、关联数据的类型划分、关联数据的支撑技术及其构建的关键实现技术。最后,分析了基于关联标签的数字资源语义聚合方法的内涵、特点、步骤和优势。
第4章,深入对如何构建用户行为特征库进行了研究。首先,从构建用户行为特征库的外部系统环境入手,对用户行为的获取与挖掘进行了宏观研究。其次,从数据库的层次结构视角对构建用户行为特征库进行了可行性分析。接着从数据预处理、数据采集、数据抽取,到数据格式标准化对用户行为创建流程进行了详细论述,并对特征库的层次结构进行描述。最后,在本章实验部分,依照特征库创建流程设计了三个用户行为特征采集与挖掘工具。
第5章,基于用户行为特征库内的词语集合,创建用户行为词表,研究词词关联和词表聚合。首先,利用成熟的词表技术将用户行为特征库中的词汇进行序化,并借助TF-IDF改进算法及MDS算法两种方式来提取能代表用户特征的中心词汇。其次,讨论了模糊集合理论中词词关系的数据处理问题,在此基础上进行词表中词词关联值的探讨,并通过关联矩阵进行词间语义关系的实证研究。然后,借助比较排序、相关排序、Pagerank等方法对词表进行融合研究。最后根据词间语义关系进行由词表向本体的转化,并阐述了如何利用词表创建用户行为的本体过程。
第6章,主要在第4和5章的技术基础上构建用户行为本体库,并以用户为中心进行本体聚合。首先,用户需求、用户体验、用户兴趣三者为用户行为本体构建的出发点,在本体创建总方向上对用户行为本体构建做出规范。其次,进行了用户本体的存储与操作的相关内容,在这些理论与方法的基础上阐述了用户行为本体的构建流程。再次,提出以用户行为特征为中心的异质本体聚合与融合的解决方案。