本书从自然语言处理初学者的视角出发,以Python及其相关框架为工具,以实战为导向,系统讲述了中文自然语言处理中的基本概念、理论方法和经典算法,既有对基础知识和理论模型的介绍,也有对相关问题的实现方法和技术现状的详细阐述。通过使用NLP中流行的jieba、LTP、HanLP、NLTK等工具库解决案例中的问题,使读者既能理解问题背后的原理,又能学习解决实际问题的思路和方法,提高使用自然语言处理方法来解决实际问题的能力。
本书可以作为各类职业院校人工智能技术应用及相关专业的教材,也可以作为自然语言处理初学者的入门参考书。
本书配有电子课件等教学资源,选用本书作为授课教材的教师可登录机械工业出版社教育服务网(wwwcmpeducom)注册后免费下载,或联系编辑(010-88379807)咨询。
前言
自然语言处理(Natural Language Processing,NLP)是人工智能领域的重要分支,是一门集语言、数学、计算机科学和认知科学等于一体的综合性交叉学科。随着人工智能的迅猛发展,自然语言处理技术的应用需求急剧增加,人们迫切需要实用的自然语言处理技术来为人机之间的信息交流提供便捷、自然、有效的人性化服务,同时,自然语言处理领域吸引了越来越多的优秀人才投身其中。但是自然语言处理中还有若干科学问题和技术难题尚未得到解决,有待来自不同领域的学者深入研究和探索。
中文自然语言处理所面临的困难既有其他自然语言处理会遇到的共性问题,例如生词识别、歧义消减等,也有中文处理特有的问题,例如中文分词等。因此,中文自然语言处理更具有挑战性。
本书是中文自然语言处理领域的入门教程,在内容选材上尽量涵盖了中文自然语言处理的基础知识,从初学者的角度深入浅出地介绍了自然语言处理的基本概念、基础知识以及常用的理论方法和经典算法,通过生动的示例说明、简洁的理论讲解和典型的应用案例,帮助学生快速理解并掌握自然语言处理的知识体系。
本书共10个单元,单元1介绍了自然语言处理的相关概念、基础知识、Python工具包以及正则表达式等;单元2和单元3介绍了自然语言处理的词法层面技术,具体包括中文分词、词性标注和命名实体识别;单元4介绍了自然语言处理的句法分析技术;单元5介绍了自然语言处理中常用的一些深度学习算法;单元6介绍了常用的向量化方法;单元7~单元10通过综合案例讲解了自然语言处理的具体处理过程。
本书内容适合64学时,教学建议如下:单元名称建议学时单元1自然语言处理基础3单元2中文分词3单元3词性标注和命名实体识别4单元4句法分析6(续)单元名称建议学时单元5NLP中的深度学习8单元6文本向量化6单元7关键词提取10单元8文本分类6单元9文本情感分析12单元10聊天机器人6
本书由国基北盛(南京)科技发展有限公司组编,由丁爱萍、张卫婷、余云峰任主编,由于倩、屈毅、曹建春、张传勇任副主编,参与编写的还有王春莲、张震、王妍、李永亮、刘信杰。
由于编者水平有限,书中难免存在疏漏和不足之处,恳请读者批评指正。
编者
目录
前言
单元1自然语言处理基础
11什么是自然语言处理
12自然语言处理的发展历程
13自然语言处理的三个层面
14Python开发环境——Anaconda
15能力提升训练——使用Python正则表达式包
单元小结
学习评估
课后习题
单元2中文分词
21分词方法
22能力提升训练——使用中文分词工具包jieba
单元小结
学习评估
课后习题
单元3词性标注和命名实体识别
31词性标注
32命名实体识别
33能力提升训练——基于LTP的词性标注和命名实体识别
单元小结
学习评估
课后习题
单元4句法分析
41句法分析分类
42能力提升训练——基于PCFG的句法分析
43能力提升训练——依存句法分析
单元小结
学习评估
课后习题
单元5NLP中的深度学习
51RNN
52LSTM
53Encoder-Decoder框架
54Attention机制
55transformer模型
单元小结
学习评估
课后习题
单元6文本向量化
61文本向量化
62能力提升训练——文本向量化
单元小结
学习评估
课后习题
单元7关键词提取
71关键词提取算法
72自动文摘方法
73能力提升训练——关键词提取
74能力提升训练——自动文摘
75能力提升训练——词云
单元小结
学习评估
课后习题
单元8文本分类
81文本分类方法
82能力提升训练——基于传统机器学习的新闻文本分类
83能力提升训练——垃圾邮件分类
单元小结
学习评估
课后习题
单元9文本情感分析
91情感分析方法
92能力提升训练——基于词典的情感分析
93能力提升训练——基于传统机器学习方法的情感分析
94能力提升训练——基于LSTM的情感分析
单元小结
学习评估
课后习题
单元10聊天机器人
101聊天机器人的分类
102NLU
103能力提升训练——天气查询机器人
104Elasticsearch
105能力提升训练——法务咨询机器人
单元小结
学习评估
课后习题
参考文献