本书在全面介绍文本信息抽取技术在古籍文本处理方面应用的基础上,着重介绍文本信息抽取与知识挖掘的基本概念、原理和方法,包括文本预处理、特征提取、命名实体识别、信息抽取、语义分析、知识表示等关键技术。
全书共3部分: 第1部分(第1、2章)着重介绍古籍文本信息抽取的相关背景知识; 第2部分(第3~8章)着重讨论命名实体识别、关系抽取和事件抽取的具体方法,同时介绍对应的实验应用及结果分析; 第3部分(第9章)基于对当前实体抽取领域研究现状的分析与总结,展望未来。同时,全书也提供了大量应用实例。
本书适合作为高等院校计算机、软件工程及相关专业本科生、研究生的参考书,也可供对自然语言处理比较熟悉并且对信息抽取有所了解的开发人员、广大科技工作者和研究人员学习使用。
古籍文本信息抽取与挖掘的重要性在于保护和传承人类的文化遗产,以及促进学术研究和历史探索。古籍文本是记录了古代知识、思想、文化和历史的宝贵资源。通过对古籍文本进行信息抽取,可以从大量的文字资料中提取出有用的信息,为人们的研究和了解相关题材提供重要的线索和指引。
本书全面介绍文本信息抽取与知识挖掘的基本概念、原理和方法,包括文本预处理、特征提取、命名实体识别(NER)、信息抽取、语义分析、知识表示等关键技术。读者可了解每种实施方法及其执行流程。
本书中提供一系列实用的方法和工具,指导读者在实际应用中进行文本信息抽取和知识挖掘。这些方法和工具包括基于规则的抽取、统计方法、机器学习和深度学习技术等。读者可以通过实例和案例学习如何选择适当的方法和工具,并将其应用于自己的项目实践中。
本书以文本信息抽取的基础知识为基点,通过理论与实践相结合,重点介绍实体抽取与关系抽取(RE)的技术方法,及其在中国少数民族古籍总目提要数据集上的实际应用; 针对NER,介绍基于Transformer模型的方法和基于提示学习的方法; 针对RE,介绍基于远程监督的方法和基于迁移学习的方法; 针对事件抽取(EE),介绍联合模型的EE和篇章级的EE。
全书共9章。第1章为绪论,介绍古籍文本信息抽取的研究背景与意义,以及信息抽取的相关定义和基本方法。第2章详细介绍信息抽取的概念和基础理论,并浅析古籍文本信息抽取的应用领域。第3、4章介绍NER的核心方法,分别是基于Transformer模型的方法和基于提示学习的方法。第5、6章介绍实体RE的核心方法,分别是基于远程监督的方法和基于迁移学习的方法。第7、8章介绍EE的核心方法,分别是联合模型的EE和篇章级的EE方法。在第3~8章中,每一个方法都提供了相应的实验及对实验结果的分析。第9章为总结与展望,主要内容是对当前在实体RE领域相关技术的总结及对于此领域内技术未来发展方向的展望。
本书可以作为计算机、软件工程及相关专业学生实体抽取文本信息抽取信息挖掘等课程的参考书,同时也可作为计算机从业人员实体RE、EE、文本信息挖掘相关知识的入门学习资料。读者最好在学习过人工智能机器学习深度学习等相关课程后再学习本书及自然语言处理的相应课程。
本书在编写过程中得到中央民族大学信息工程学院的研究生穆日亘、毛宁静、丁福森、李蕊、王文涵、张小苗、仪超、金明哲的大力支持,在此表示衷心的感谢。同时,还需感谢本书后参考文献的作者,感谢他们的资料对本书的指导。感谢清华大学出版社编辑们对本书的出版给予的宝贵建议。
在本书的撰写和相关技术的研究中,由于编者受知识水平所限及时间仓促,书中错误与疏漏之处在所难免,敬请广大读者批评指正。
卢勇
2024年8月