关于我们
书单推荐
新书推荐
|
自然语言处理从入门到实战
为了帮助广大爱好自然语言处理(NaturalLanguageProcessing,NLP)技术的读者朋友入门此领域,本书阐述了自然语言处理概况、领域应用、相关处理工具包、相关的机器学习及深度学习模型、文本预处理及文本表征等基础知识,以及具体的自然语言处理任务,包括文本分类、关系抽取、知识图谱、文本摘要、序列标注、机器翻译和聊天系统,同时介绍了自然语言处理技术在学术界以及工业界的发展、应用现状,并为读者们提供了部分面试参考题目。
本书适合有一定的编程及机器学习基础,想入门自然语言处理,以及想系统了解或准备求职自然语言处理初级岗位的读者阅读。 本书特色 1内容安排实用实在、详略得当,符合初学者的认知规律 本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。 2行文简单直白,以实例引导理论,特别适合初学者阅读 本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。 3设置思考题以及项目代码,激发初学者的热情与兴趣 本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。
虽说自然语言处理(Natural Language Processing, NLP)技术的历史并不悠久,却有着自身成熟的理论体系,覆盖多门学科,比如数学、计算机科学、语言学、认知心理学等基础知识,同时它又是一门应用性极强的技术,在很多领域都具备落地性。这种理论加实际操作能力的要求对初学者形成了双重困难。通俗地阐述基本的、必备的理论知识,克服困难,使读者能够快速从容地上手实际项目,成为一名初级自然语言处理工程师,这是本书的目标。
本书浓缩编者多年的知识积累和实务工作经验奉献于读者朋友。书中采用大量的图示与代码案例分析,将枯燥复杂的理论知识用平实的语言娓娓道来,让读者在熟悉的场景中能够动态地理解专业知识。在具体内容安排上,抛开深奥的理论化条文,除了必备的基础理论、知识介绍外,不贪多求全,强调实务操作、快速上手——从如何对文本数据进行预处理、基础分析到实用的自然语言处理实践任务如文本摘要生成、聊天系统等,让读者循序渐进地入门系统的自然语言处理技术。随着本书的讲解,读者的自然语言处理学习之旅一定会成为一番难忘的快乐体验。 本书特色 1内容安排实用实在、详略得当,符合初学者的认知规律 本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。 2行文简单直白,以实例引导理论,特别适合初学者阅读 本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。 3设置思考题以及项目代码,激发初学者的热情与兴趣 本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。 自然语言处理从入门到实战 本书内容及体系结构 第一部分自然语言处理核心技术 第1章自然语言处理初探 本章主要为读者朋友介绍,在这短短不到一百年的时间里,自然语言处理早期的发展历程,近些年突飞猛进的发展,以及自然语言处理的基本任务,在各行各业中的应用和基本的工具框架。 第2章自然语言处理与机器学习 本章主要介绍一些常见机器学习模型的原理、对比分析各类机器学习模型的优缺点以及机器学习工具库的使用。 第3章自然语言处理与神经网络 本章将为大家揭开深度学习的神秘面纱,主要介绍神经网络的基本结构以及一些常见的训练过程中的优化方案。 第二部分自然语言处理基本任务 第4章文本预处理 本章主要介绍文本预处理的基础项目以及相关工具、关键词提取的一些常用的方法以及数据不平衡的处理方法。 第5章文本的表示技术 本章将纵向梳理文本表示技术的发展脉络,分析各类表示方法的优缺点。 第6章序列标注 本章将为大家介绍一些常见的序列标注场景以及不同场景下的应用模型。 第7章关系抽取 本章主要讲解关系抽取的主要方法、前沿研究以及相关的应用框架。 第三部分自然语言处理高级任务 第8章知识图谱 本章主要介绍知识图谱的相关概念、技术、应用等。 第9章文本分类 本章主要介绍基本的文本分类方法以及相关工具的应用。 第10章文本摘要 本章主要介绍自动文本摘要中的两大类型,抽取式(extractive)摘要和生成式(abstractive)摘要,并且通过代码搭建演示两个简单版本的抽取式摘要生成器。 第11章机器翻译 本章主要介绍机器翻译的历史、相关技术原理、现状与不足等,通过本章的学习,读者将了解机器翻译的源起、统计机器翻译的原理、神经机器翻译的原理以及常见的改进版本的神经机器翻译模型。 第12章聊天系统 本章节主要介绍聊天系统的基本类型及应用、关键技术,并且用代码演示开发一款简单的闲聊系统。 第四部分自然语言处理求职 第13章自然语言处理技术的现在、未来及择业 最后一章为有志于入门或从事自然语言处理的读者提供更多的、与自然语言处理相关的常识性及实用性内容,比如学术界、工业界等方面的研究现状、未来发展热点、如何准备面试等。 本书读者对象 有一定的编程及机器学习基础,想入门自然语言处理的读者 因为兴趣,想系统性地了解自然语言处理的读者 准备求职自然语言处理初级岗位的读者 虽说自然语言处理(Natural Language Processing, NLP)技术的历史并不悠久,却有着自身成熟的理论体系,覆盖多门学科,比如数学、计算机科学、语言学、认知心理学等基础知识,同时它又是一门应用性极强的技术,在很多领域都具备落地性。这种理论加实际操作能力的要求对初学者形成了双重困难。通俗地阐述基本的、必备的理论知识,克服困难,使读者能够快速从容地上手实际项目,成为一名初级自然语言处理工程师,这是本书的目标。 本书浓缩编者多年的知识积累和实务工作经验奉献于读者朋友。书中采用大量的图示与代码案例分析,将枯燥复杂的理论知识用平实的语言娓娓道来,让读者在熟悉的场景中能够动态地理解专业知识。在具体内容安排上,抛开深奥的理论化条文,除了必备的基础理论、知识介绍外,不贪多求全,强调实务操作、快速上手——从如何对文本数据进行预处理、基础分析到实用的自然语言处理实践任务如文本摘要生成、聊天系统等,让读者循序渐进地入门系统的自然语言处理技术。随着本书的讲解,读者的自然语言处理学习之旅一定会成为一番难忘的快乐体验。 本书特色 1内容安排实用实在、详略得当,符合初学者的认知规律 本书内容涵盖了从自然语言数据处理、基础任务(如分词、词性标注、命名实体识别等)到实战性任务(如文本分类、文本摘要、聊天系统等)所必须掌握的知识,从内容结构上非常注重知识的实用性和可操作性。必须掌握的细节处不吝笔墨,辅以图表以及代码加深读者印象;对仅需要大致了解处简要介绍一些相关理论及前沿动态。这样的安排使得初学者能够掌握必备知识,了解并思考学术前沿及行业应用,符合初学者对自然语言处理知识的认知规律。 2行文简单直白,以实例引导理论,特别适合初学者阅读 本书行文简单直白,全程都有相应的实例作为引导,对于比较难的内容尽量以举例的形式帮助读者理解。在介绍这些知识时,并不是教条式的,填鸭式的讲解,而是尽量以平实化的语言讲解相关理论,犹如帮助一位老朋友,一步步地成为初级自然语言处理工程师。 3设置思考题以及项目代码,激发初学者的热情与兴趣 本书的每一章都设置有相应的思考题,并在附录中提供了相关参考答案;读者可以自测对章节内容的学习的掌握程度。此外,本书章节介绍的代码实例,相关的电子版本会随书赠予,使读者能够进行实践操作,更加深入地理解知识。这些实践内容是学习自然语言处理过程中必不可少的环节,通过思考题以及代码的操作练习,能够使读者朋友快速地入门自然语言处理。 自然语言处理从入门到实战 前言 本书内容及体系结构 第一部分自然语言处理核心技术 第1章自然语言处理初探 本章主要为读者朋友介绍,在这短短不到一百年的时间里,自然语言处理早期的发展历程,近些年突飞猛进的发展,以及自然语言处理的基本任务,在各行各业中的应用和基本的工具框架。 第2章自然语言处理与机器学习 本章主要介绍一些常见机器学习模型的原理、对比分析各类机器学习模型的优缺点以及机器学习工具库的使用。 第3章自然语言处理与神经网络 本章将为大家揭开深度学习的神秘面纱,主要介绍神经网络的基本结构以及一些常见的训练过程中的优化方案。 第二部分自然语言处理基本任务 第4章文本预处理 本章主要介绍文本预处理的基础项目以及相关工具、关键词提取的一些常用的方法以及数据不平衡的处理方法。 第5章文本的表示技术 本章将纵向梳理文本表示技术的发展脉络,分析各类表示方法的优缺点。 第6章序列标注 本章将为大家介绍一些常见的序列标注场景以及不同场景下的应用模型。 第7章关系抽取 本章主要讲解关系抽取的主要方法、前沿研究以及相关的应用框架。 第三部分自然语言处理高级任务 第8章知识图谱 本章主要介绍知识图谱的相关概念、技术、应用等。 第9章文本分类 本章主要介绍基本的文本分类方法以及相关工具的应用。 第10章文本摘要 本章主要介绍自动文本摘要中的两大类型,抽取式(extractive)摘要和生成式(abstractive)摘要,并且通过代码搭建演示两个简单版本的抽取式摘要生成器。 第11章机器翻译 本章主要介绍机器翻译的历史、相关技术原理、现状与不足等,通过本章的学习,读者将了解机器翻译的源起、统计机器翻译的原理、神经机器翻译的原理以及常见的改进版本的神经机器翻译模型。 第12章聊天系统 本章节主要介绍聊天系统的基本类型及应用、关键技术,并且用代码演示开发一款简单的闲聊系统。 第四部分自然语言处理求职 第13章自然语言处理技术的现在、未来及择业 最后一章为有志于入门或从事自然语言处理的读者提供更多的、与自然语言处理相关的常识性及实用性内容,比如学术界、工业界等方面的研究现状、未来发展热点、如何准备面试等。 本书读者对象 有一定的编程及机器学习基础,想入门自然语言处理的读者 因为兴趣,想系统性地了解自然语言处理的读者 准备求职自然语言处理初级岗位的读者
胡盼盼自然语言处理工程师,斯特拉斯堡大学计算机语言学硕士,曾任法国科学院(CNRS,Centre National de la Recherche Scientifique)算法研究员,负责过医疗知识图谱、聊天机器人、智能律师系统、文本生成系统等企业级核心项目。
目录
第一部分了解自然语言处理 第1章自然语言处理初探 11自然语言处理概述 111自然语言处理早期发展史 112新世纪的里程碑事件 12自然语言处理的挑战 121词义消歧 122指代消解 123上下文理解 124语义与语用的不对等 13自然语言处理的应用领域 131医疗 132教育 133媒体 134金融 135法律 14自然语言处理的常见工具 141基础任务工具包 142科学计算及机器学习框架 143深度学习框架 本章小结 思考题 第二部分自然语言处理核心技术 第2章自然语言处理与机器学习 21逻辑回归 211逻辑回归基本原理 212逻辑回归在实践中的注意要点 213逻辑回归的优势与不足 22朴素贝叶斯 221朴素贝叶斯基本原理 222朴素贝叶斯的类型 223朴素贝叶斯的优势与不足 23Kmeans算法 231Kmeans算法基本原理 232Kmeans算法实践 233Kmeans算法的优势与不足 24决策树 241决策树的属性划分 242随机森林的基本原理 243随机森林在应用中的注意细节 25主成分分析 251梯度上升法解PCA 252协方差矩阵解PCA 253实战PCA 本章小结 思考题 第3章自然语言处理与神经网络 31神经网络初探 311神经元结构 312常见的激活函数 313误差反向传播算法 32常见的神经网络结构 321多层感知机 322循环神经网络的基本原理 323卷积神经网络的基本原理 324神经网络的优势与不足 33神经网络算法的改进与提升 331防止过拟合的方法 332训练速度与精度的提高方法 333注意力机制 本章小结 思考题 第三部分自然语言处理基本任务 第4章文本预处理 41文本预处理的基础项目 411文本规范化 412语义分析 413分词 414文本纠错 42关键词提取 421基于特征统计 422基于主题模型 423基于图模型 43数据不平衡的处理 431常见方法 432数据不平衡问题实战 本章小结 思考题 第5章文本的表示技术 51词袋模型 511基于频次的词袋模型 512基于TFIDF的词袋模型 513相关工具的使用 52Word2Vec词向量 521Word2Vec的基本原理 522Word2Vec模型细节及代码演示 523应用工具训练Word2Vec 53改进后的词表征 531GloVe模型 532FastText模型 533ELMo模型 54句向量 541基于词向量的平均 542沿用Word2Vec思想 543有监督方式 本章小结 思考题 第6章序列标注 61序列标注基础 611序列标注的应用场景 612基线方式 613序列标注任务的难点 62基于概率图的模型 621隐马尔科夫模型(HMM) 622最大熵马尔科夫模型(MEMM) 623条件随机场模型(CRF) 624天气预测实例 63基于深度学习的方式 631数据表征形式 632序列处理模型 本章小结 思考题 第7章关系抽取 71关系抽取基础 711关系抽取概述 712关系抽取的主要方法 713深度学习与关系抽取 714强化学习与关系抽取 72基于半监督的关系抽取模式:Snowball系统 721Patterns及Tuples的生成 722Patterns及Tuples的评估 723Snowball的实现细节 73关系抽取工具——DeepDive 731DeepDive概述 732DeepDive工作流程 733概率推断与因子图 本章小结 思考题 第四部分自然语言处理高级任务 第8章知识图谱 81知识图谱基本概念 811从语义网络到知识图谱 812知识的结构化、存储及查询 813几个开源的知识图谱 82知识图谱的关键构建技术 821本体匹配 822实体链接 823知识推理 83知识图谱应用 831反欺诈 832个性化推荐 833知识库问答 本章小结 思考题 第9章文本分类 91文本分类的常见方法 911机器学习 912模型融合 913深度学习 92文本分类的不同应用场景 921二分类 922多分类 923多标签多分类 93案例:搭建一款新闻主题分类器 931数据预处理 932训练与预测 933改进 本章小结 思考题 第10章文本摘要 101抽取式摘要 1011传统方法 1012基于深度学习的方法 1013抽取式摘要的训练数据问题 102生成式摘要 1021基础模型 1022前沿模型中的技巧 1023强化学习与生成式摘要 103案例:搭建网球新闻摘要生成器 1031基于词频统计的摘要生成器 1032基于图模型的摘要生成器 1033结果分析 本章小结 思考题 第11章机器翻译 111传统机器翻译 1111源起 1112基于规则 1113基于大规模语料 112统计机器翻译 1121相关流派 1122基于信源信道的统计机器翻译 1123案例:外星语的翻译实战 113神经机器翻译 1131基本原理 1132改进机制 1133前沿与挑战 本章小结 思考题 第12章聊天系统 121聊天系统的类型 1211闲聊式机器人 1212知识问答型机器人 1213任务型聊天机器人 122聊天系统的关键技术 1221检索技术 1222意图识别和词槽填充 1223对话管理 1224强化学习与多轮对话 123案例:闲聊机器人实战 1231技术概要 1232基本配置及数据预处理 1233闲聊机器人模型的搭建 1234模型训练、预测以及优化 本章小结 思考题 第五部分自然语言处理求职 第13章自然语言处理技术的现在、未来及择业 131自然语言处理组织及人才需求介绍 1311学术界 1312工业界 1313人才需求现状 132未来与自然语言处理 1321自然语言处理热点技术方向 1322自然语言处理的应用畅想 1323自然语言处理带来的行业冲击 133面试题 1331数据结构与算法 1332数学基础 1333机器学习与深度学习 1334自然语言处理专业 1335实际问题解决及技术领域见解 本章小结 思考题 附录A思考题参考答案 附录B面试题答案目录 第一部分了解自然语言处理 第1章自然语言处理初探 11自然语言处理概述 111自然语言处理早期发展史 112新世纪的里程碑事件 12自然语言处理的挑战 121词义消歧 122指代消解 123上下文理解 124语义与语用的不对等 13自然语言处理的应用领域 131医疗 132教育 133媒体 134金融 135法律 14自然语言处理的常见工具 141基础任务工具包 142科学计算及机器学习框架 143深度学习框架 本章小结 思考题 第二部分自然语言处理核心技术 第2章自然语言处理与机器学习 21逻辑回归 211逻辑回归基本原理 212逻辑回归在实践中的注意要点 213逻辑回归的优势与不足 22朴素贝叶斯 221朴素贝叶斯基本原理 222朴素贝叶斯的类型 223朴素贝叶斯的优势与不足 23Kmeans算法 231Kmeans算法基本原理 232Kmeans算法实践 233Kmeans算法的优势与不足 24决策树 241决策树的属性划分 242随机森林的基本原理 243随机森林在应用中的注意细节 25主成分分析 251梯度上升法解PCA 252协方差矩阵解PCA 253实战PCA 本章小结 思考题 第3章自然语言处理与神经网络 31神经网络初探 311神经元结构 312常见的激活函数 313误差反向传播算法 32常见的神经网络结构 321多层感知机 322循环神经网络的基本原理 323卷积神经网络的基本原理 324神经网络的优势与不足 33神经网络算法的改进与提升 331防止过拟合的方法 332训练速度与精度的提高方法 333注意力机制 本章小结 思考题 第三部分自然语言处理基本任务 第4章文本预处理 41文本预处理的基础项目 411文本规范化 412语义分析 413分词 414文本纠错 42关键词提取 421基于特征统计 422基于主题模型 423基于图模型 43数据不平衡的处理 431常见方法 432数据不平衡问题实战 本章小结 思考题 第5章文本的表示技术 51词袋模型 511基于频次的词袋模型 512基于TFIDF的词袋模型 513相关工具的使用 52Word2Vec词向量 521Word2Vec的基本原理 522Word2Vec模型细节及代码演示 523应用工具训练Word2Vec 53改进后的词表征 531GloVe模型 532FastText模型 533ELMo模型 54句向量 541基于词向量的平均 542沿用Word2Vec思想 543有监督方式 本章小结 思考题 第6章序列标注 61序列标注基础 611序列标注的应用场景 612基线方式 613序列标注任务的难点 62基于概率图的模型 621隐马尔科夫模型(HMM) 622最大熵马尔科夫模型(MEMM) 623条件随机场模型(CRF) 624天气预测实例 63基于深度学习的方式 631数据表征形式 632序列处理模型 本章小结 思考题 第7章关系抽取 71关系抽取基础 711关系抽取概述 712关系抽取的主要方法 713深度学习与关系抽取 714强化学习与关系抽取 72基于半监督的关系抽取模式:Snowball系统 721Patterns及Tuples的生成 722Patterns及Tuples的评估 723Snowball的实现细节 73关系抽取工具——DeepDive 731DeepDive概述 732DeepDive工作流程 733概率推断与因子图 本章小结 思考题 第四部分自然语言处理高级任务 第8章知识图谱 81知识图谱基本概念 811从语义网络到知识图谱 812知识的结构化、存储及查询 813几个开源的知识图谱 82知识图谱的关键构建技术 821本体匹配 822实体链接 823知识推理 83知识图谱应用 831反欺诈 832个性化推荐 833知识库问答 本章小结 思考题 第9章文本分类 91文本分类的常见方法 911机器学习 912模型融合 913深度学习 92文本分类的不同应用场景 921二分类 922多分类 923多标签多分类 93案例:搭建一款新闻主题分类器 931数据预处理 932训练与预测 933改进 本章小结 思考题 第10章文本摘要 101抽取式摘要 1011传统方法 1012基于深度学习的方法 1013抽取式摘要的训练数据问题 102生成式摘要 1021基础模型 1022前沿模型中的技巧 1023强化学习与生成式摘要 103案例:搭建网球新闻摘要生成器 1031基于词频统计的摘要生成器 1032基于图模型的摘要生成器 1033结果分析 本章小结 思考题 第11章机器翻译 111传统机器翻译 1111源起 1112基于规则 1113基于大规模语料 112统计机器翻译 1121相关流派 1122基于信源信道的统计机器翻译 1123案例:外星语的翻译实战 113神经机器翻译 1131基本原理 1132改进机制 1133前沿与挑战 本章小结 思考题 第12章聊天系统 121聊天系统的类型 1211闲聊式机器人 1212知识问答型机器人 1213任务型聊天机器人 122聊天系统的关键技术 1221检索技术 1222意图识别和词槽填充 1223对话管理 1224强化学习与多轮对话 123案例:闲聊机器人实战 1231技术概要 1232基本配置及数据预处理 1233闲聊机器人模型的搭建 1234模型训练、预测以及优化 本章小结 思考题 第五部分自然语言处理求职 第13章自然语言处理技术的现在、未来及择业 131自然语言处理组织及人才需求介绍 1311学术界 1312工业界 1313人才需求现状 132未来与自然语言处理 1321自然语言处理热点技术方向 1322自然语言处理的应用畅想 1323自然语言处理带来的行业冲击 133面试题 1331数据结构与算法 1332数学基础 1333机器学习与深度学习 1334自然语言处理专业 1335实际问题解决及技术领域见解 本章小结 思考题 附录A思考题参考答案 附录B面试题答案
你还可能感兴趣
我要评论
|