文本数据挖掘_宗成庆、夏睿、张家俊_9787302519904

本书阐述文本数据挖掘的理论模型、实现算法和相关应用，主要内容包括：信息抽取和知识库构建、文本聚类、情感文本分析、热点发现、生物医学文本挖掘和多文档自动摘要等。写作风格力求言简意赅，深入浅出，通过实例说明实现相关任务的理论方法和技术思路，而不过多地涉及实现细节。本书可作为大学高年级本科生或研究生从事相关研究的入门文献，也可作为从事相关技术研发的开发人员的参考资料。

随着互联网和移动通信技术的快速发展和普及应用，文本数据挖掘技术备受关注，尤其随着云计算、大数据和深度学习等一系列新技术的广泛使用，文本挖掘技术已经在众多领域（如舆情分析、医疗和金融数据分析等）发挥了重要作用，表现出广阔的应用前景。
虽然十多年前我就指导博士生开展文本分类和自动文摘等相关技术的研究，但对文本数据挖掘的整体概念并没有一个清晰的认识，只是将研究的单项技术视为自然语言处理的具体应用。韩家炜教授主笔的《数据挖掘概念与技术》和刘兵教授撰写的Web Data Mining等专著曾让我大获裨益，每次聆听他们的学术报告和与他们当面交谈也都受益匪浅。促使我萌生撰写这部专著念头的是中国科学院大学让我开设的文本数据挖掘课程。 2015年底我接受中国科学院大学计算机与控制学院的邀请，开始准备文本数据挖掘课程的内容设计和课件编写工作，我不得不静下心来查阅大量的文献资料，认真思考这一术语所蕴藏的丰富内涵和外延，经过几年的学习、思考和教学实践，文本数据挖掘的概念轮廓渐渐清晰起来。
夏睿和张家俊两位青年才俊的加盟让我萌生的写作计划得以实现。夏睿于 2007年硕士毕业，以优异成绩考入中科院自动化所跟随我攻读博士学位，从事情感文本分析研究，在情感分析和观点挖掘领域以第一作者身份在国际一流学术期刊和会议上发表了一系列有影响力的论文，其中两篇论文入选 ESI高被引论文，攻读博士学位期间完成的关于情感分类特征发现与集成学习的论文被引 400余次。此外，他在文本分类与聚类、主题模型、话题检测与跟踪等多个领域都颇有见地。张家俊于 2006年本科毕业后被免试推荐到中科院自动化所跟随我攻读博士学位，主要从事机器翻译研究，之后在多语言自动摘要、信息获取和人机对话等多个研究方向都有出色的表现。自 2016年起他同我一道在中国科学院大学讲授自然语言处理课程的机器翻译、自动文摘和文本分类等部分内容，颇受学生的欢迎。仰仗两位弟子扎实的理论功底和敏锐的科研悟性，很多最新的技术方法和研究成果能够得到及时的验证和实践，并被收入本书，使我倍感欣慰。
自 2016年初动笔，到此时收官，全书耗时两年多，当然大部分写作都是在节假日、周末和其他本该休息的时间里完成的，其间进行了无数次的修改、补充和调整，所花费的时间和精力及其感受到的快乐和烦恼难以言表，正所谓痛并快乐着。在写作过程中和初稿完成之后，得到了很多同行专家的大力支持和帮助，他们是（以姓氏拼音顺序排列）：韩先培、洪宇、李寿山、刘康、万小军、徐康、章成志、赵鑫、周玉。他们分别审阅了部分章节的内容，提出了宝贵的修改意见和建议。另外，部分研究生和博士生也为本
文本数据挖掘
书的写作提供了力所能及的帮助，他们是：白赫、蔡鸿杰、丁子祥、何烩烩、金晓、李俊杰、马聪、王乐义、向露、郑士梁、朱军楠。他们帮助作者收集整理了部分文献资料，绘制了书中的部分图表，为作者节省了宝贵的时间。在此一并向他们表示衷心的感谢！
由衷地感谢韩家炜教授对本书提出的指导性意见和建议！他能够在百忙之中为本书撰序，是我们的荣幸，不胜感激！本书的撰写工作得到了中国科学院大学教材出版中心的资助和国家自然科学基金重点项目的资助（项目编号： 61333018）。另外，不得不说的是，由于作者的水平和能力所限，加之时间和精力的不足，书中一定存在疏漏或错误，衷心地欢迎读者给予批评指正！
宗成庆 2018年国庆节期间

你还可能感兴趣

我要评论