本书是数据标注领域领先的实训讲义。本书着重对常见的文本、语音和图像标注任务类型进行介绍,帮助从事标注工作的学习者快速地完成系统化学习,进行标注实战。 本书对文本、语音及图像标注的多种任务类型逐一进行讲解和分析,每种标注类型均配有对应的规范、举例分析、习题及解析。同时,本书还针对各类标注配套多种子任务类型或多个领域的实操练习题,以帮助本书学习者增长见识,实现系统的、完整的学习,培养实战能力。
饶高琦,中国中文信息学会青年工作委员会委员、中国人工智能学会多语智能信息处理专委会宣传委员、面向教育应用的自然语言处理工作坊联合主席。
目录
第1章 语言和语言数据 001
1.1 自然语言 002
1.1.1 什么是自然语言 002
1.1.2 世界语言概况 005
1.2 语言智能 006
1.2.1 语言智能是什么 006
1.2.2 语言智能的常见任务和应用 007
1.3 语言资源 013
1.3.1 什么是语言资源 013
1.3.2 为什么语言资源是语言智能的基础 014
1.3.3 语言资源建设概况 015
第2章 语音和语音数据 017
2.1 语音和语音信息处理 018
2.1.1 语音合成 018
2.1.2 语音识别 019
2.2 语音的语言学结构 019
2.2.1 语音的属性 019
2.2.2 音节和音位 022
2.2.3 辅音和声母 023
2.2.4 元音和韵母 024
2.3 语音的信息结构 026
2.3.1 时域信息 027
2.3.2 频域信息 028
第3章 汉字和文字数据 030
3.1 汉字信息处理 031
3.2 汉字的结构 032
3.2.1 汉字的演化 032
3.2.2 汉字的特点 034
3.3 汉字的信息化 036
3.3.1 字符编码 036
3.3.2 汉字编码 037
3.3.3 汉字的字符集 039
第4章 词法和词义 043
4.1 词与词处理 044
4.1.1 分词 045
4.1.2 命名实体识别 046
4.1.3 词性标注 047
4.2 词汇的结构 048
4.2.1 词汇的结构单元 048
4.2.2 词语的类型 052
4.2.3 特殊类型的词 055
4.3 词汇的语法功能:词性 061
4.3.1 实词 062
4.3.2 虚词 070
4.4 词汇的语义 075
4.4.1 词义的构成 075
4.4.2 词义的聚合关系 080
4.4.3 词典和词语的释义 084
4.5 词语数据资源 087
4.5.1 汉语词表资源 087
4.5.2 汉语词典资源 091
4.5.3 其他重要汉语词汇语义资源 105
第5章 句法和句义 109
5.1 句与句处理 110
5.1.1 句法分析 110
5.1.2 句义分析 111
5.2 句子的结构 113
5.2.1 句法成分 113
5.2.2 句子的结构类型 118
5.2.3 句子的特殊类型 123
5.2.4 句子的语气类型 128
5.3 句法信息的表示形式 135
5.3.1 短语结构文法 135
5.3.2 依存文法 139
5.4 句子的语义 141
5.4.1 句子的语义种类 141
5.4.2 句子的语义结构 144
5.4.3 句子中的歧义 149
5.4.4 语义的表现形式:语义角色 153
5.4.5 语义的表现形式:语义依存 155
5.4.6 语义的表现形式:抽象语义表示 156
5.4.7 语义的表现形式:逻辑命题表示 160
5.5 句级数据资源 162
5.5.1 树库资源 162
5.5.2 句级语义资源 167
5.5.3 平行语料库 167
第6章 篇章和篇章信息处理 169
6.1 对篇章的信息处理 169
6.1.1 文本分类 170
6.1.2 自动摘要 170
6.1.3 信息抽取 171
6.2 修辞和语体 171
6.2.1 修辞 171
6.2.2 语体和体裁 183
6.3 修辞结构理论 190
6.3.1 修辞结构理论起源 190
6.3.2 定义关系 191
6.3.3 认知图式 198
6.4 篇章的数据资源 200
6.4.1 修辞结构篇章树库 200
6.4.2 文本分类 201
6.4.3 面向话题指称结构的语料库资源 202
6.4.4 篇章意图资源 203
6.4.5 汉语篇章广义话题结构资源 203
6.4.6 基于主述位理论的汉语微观话题语料库资源 204