本书共十二章。第一、二章回溯人类进化过程中交际方式的演变和语言通信设备的更替。第三章介绍搜索引擎技术。第四至七章首先概述自然语言处理的规则模型与统计模型,接着介绍语言知识库,继而探讨语义计算的多层次建模。第八章讲解语音识别与合成技术。第九章阐释本体知识在语义网及知识图谱中的应用。第十、十一章介绍深度问答系统及文本分析技术,聚焦汉语文本内容的深度计算。第十二章展望语言处理技术的未来发展。
大数据时代,网络文本的爆炸式增长为自然语言处理带来了巨大的应用需求。运用深层次的语言学知识来处理自然语言的方法被称为“语言的深度计算”。本书对语言深度计算的理论演进与技术发展进行了全面梳理,结合具体研究案例展示了这种涉及词法、句法、语义等方面“由浅入深”的分析过程。
本书兼具学术性、前沿性和引领性,适合计算语言学、自然语言处理领域的研究者阅读,也可供语言学、计算机科学技术和数据科学等领域的学者、教师和硕博研究生参考和借鉴。
随着中国特色社会主义进入新时代,国家对外开放、信息技术发展、语言产业繁荣与教育领域改革等对我国外语教育发展和外语学科建设产生了深远影响,也有力推动了我国外语学术出版事业的发展。为梳理学科发展脉络,展现前沿研究成果,外语教学与研究出版社汇聚国内外语学界各相关领域专家学者,精心策划了“外语学科核心话题前沿研究文库”(下文简称“文库”)。
“文库”精选语言学、应用语言学、翻译学、外国文学研究和跨文化研究五大方向共25个重要领域100余个核心话题,按一个话题一本书撰写。每本书深入探讨该话题在国内外的研究脉络、研究方法和前沿成果,精选经典研究及原创研究案例,并对未来研究趋势进行展望。“文库”在整体上具有学术性、体系性、前沿性与引领性,力求做到点面结合、经典与创新结合、国外与国内结合,既有全面的宏观视野,又有深入、细致的分析。
“文库”项目邀请国内外语学科各方向的众多专家学者担任总主编、子系列主编和作者,经三年协力组织与精心写作,自2018年底陆续推出。“文库”已获批“十三五”国家重点出版物出版规划项目,作为一个开放性大型书系,将在未来数年内持续出版。我们计划对这套书目进行不定期修订,使之成为外语学科的经典著作。
袁毓林,1962年生,1990年获北京大学博士学位。曾任北京大学中文系教授,博士生导师,现为澳门大学人文学院中国语言文学系讲座教授。主要研究理论语言学和汉语语言学,特别是句法学、语义学、语用学、计算语言学和中文信息处理。在《中国社会科学》、《中国语文》、《当代语言学》和《中文信息学报》等刊物发表论文100余篇,出版《语言的认知研究和计算分析》等10余部著作。多次获得教育部“高校科学研究优秀成果奖”。
王璐璐,1983年生,2013年获北京大学博士学位。现任中国传媒大学人文学院副教授,硕士生导师。主要研究领域为汉语语法、形式句法、词汇语义、计算语言学及中文信息处理。在《语言教学与研究》、《苏州大学学报(哲学社会科学版)》、《计算机工程与应用》等期刊和国际国内会议论文集中发表论文近20篇,出版译著《语法理论—从转换语法到基于约束的理论》,主持国家社科基金项目“基于‘词库—构式’互动理论的复杂述谓结构自动分析研究”。
总序
前言
第一章 人类的进化和交际方式的演变
1.1 人类的进化
1.2 交际方式的演变
1.3 语言在人类发展中的作用
第二章 语言通信设备的更替和网络的诞生
2.1 语言通信设备的更替
2.2 香农的通信模型
2.3 网络的诞生
2.4 社交网络
第三章 网络文本的信息爆炸和搜索引擎的发明
3.1 网络文本的信息爆炸
3.2 信息检索与搜索引擎
3.2.1 信息检索的概念与类型
3.2.2 网络搜索引擎的工作原理
3.3 搜索引擎技术
3.3.1 布尔检索和倒排索引
3.3.2 超链接分析与网页排序
3.4 基于关键词匹配方法的局限性
3.5 基于语义和概念的搜索引擎技术
3.5.1 基于语义的扩充式关键词搜索
3.5.2 基于本体知识推理的语义检索
第四章 自然语言处理的规则模型和统计模型
4.1 自然语言处理技术概说
4.2 基于规则的自然语言处理
4.2.1 有限状态自动机
4.2.2 上下文无关文法
4.2.3 基于上下文无关文法的剖析
4.3 基于统计的自然语言处理
4.3.1 基于概率的语言识别
4.3.2 基于统计的机器翻译
第五章 语言信息处理和语言知识数据库的建设
5.1 语料库和语言知识库概说
5.2 语言知识库面面观
5.2.1 词汇网络(WordNet)
5.2.2 句法树库(Treebank)
5.2.3 动词网络(verbNet)
5.2.4 命题库(PropBank)
5.2.5 情境框架网络(FrameNet)
5.3 相关资源的统一和整合
5.3.1 词义消歧和义项归组
5.3.2 义项与框架对接、框架与实例对勘
5.3.3 相关资源的义项映射和框架映射
5.3.4 实现相关资源的统一和整合
第六章 汉语句法语义知识库的研究与建设
6.1 汉语词类的模糊划分与测试平台
6.1.1 词类的范畴性质
6.1.2 词类的模糊划分和隶属度分析
6.1.3 网络版词类测试平台的设计及实现
6.2 北大实词句法语义信息词典与检索系统
6.2.1 《形容词信息词典》的知识内容
6.2.2 《动词信息词典》的知识内容
6.2.3 《名词信息词典》的知识内容
6.3 汉语动词蕴涵关系和蕴涵型式库建设
6.3.1 语言表达的多样性与文本蕴涵
6.3.2 动词蕴涵关系的理论背景与蕴涵型式库建设的目标
6.3.3 蕴涵式的类聚规律与分类体系
6.3.4 汉语动词蕴涵型式库的体系结构与功能模块
第七章 语言信息处理和语义计算的多层次建模
7.1 理论背景:认知语言学研究的三种范式
7.2 基于认知的语义知识的描述和计算
……
第八章 语音的识别与合成和言语信息处理技术
第九章 语义网替代万维网和本体知识与知识图谱的建构
第十章 深度问答系统和文本分析技术
第十一章 走向文本内容的深度计算和自动理解
第十二章 语言处理技术的发展趋势与未来议题
后记
参考文献
推荐文献
索引