本书主要适用于参加“数据标注”职业技能等级认证的人员,是数据标注领域的实训教材。为了更好地培养数据标注员,将着重对常见的文本、语音和图像标注任务类型进行介绍及训练,辅助从事标注行业的学习者快速地完成系统化学习,进行标注实战工作。 本书对文本的分类标注和实体标注、语音的转写和校对以及图像的2D拉框任务进行逐一讲解和分析,每种标注类型均配有对应的规范、举例分析、习题及解析。同时,本书还针对各类标注配套了多种子任务类型或多个领域的实操练习题,目的是帮助标注学习者增长见识,从而实现系统、完整的标注学习和实战练习。
王会珍,博士,东北大学计算机学院讲师,新加坡南洋理工大学访问学者。2002年7月毕业于东北大学计算机科学与技术专业,获得工学学士学位。同年,推荐本校研究生,从师朱靖波教授,从事自然语言处理方向的研究工作。2004年3月转入硕博连读课程,攻读计算机应用专业的博士学位,从师张斌教授、朱靖波教授,2008年3月获得博士学位。主要研究方向为:机器学习、文本分类、主题检测与追踪、知识图谱、自动问答。2002年起,一直致力于文本分析处理方面的研究与开发工作,曾作为主要研发人员参加国家自然基金课题、国家863计划项目、国家242计划项目的申请及研究。在国内外期刊杂志和学术会议上发表五十多篇学术论文,包括国际计算语言学领域顶级国际学术会议ACL、COLING、IEEE-NLPKE、IJCNLP、ICCPOL、《软件学报》、《中文信息学报》等国内期刊。研究成果曾获得辽宁省科技进步三等奖。
第1章 数据标注概述 001
1.1 什么是数据标注 002
1.2 数据标注的行业现状 003
1.2.1 政策层面 003
1.2.2 行业需求 004
1.2.3 行业发展 006
1.2.4 市场结构 007
1.3 数据标注的应用场景 009
1.3.1 智能教育 009
1.3.2 智慧医疗 011
1.3.3 智慧司法 013
1.3.4 智慧金融 014
1.3.5 智慧出行 016
1.3.6 智能家居 017
1.3.7 智慧农业 018
1.3.8 智能营销 020
1.3.9 智能安防 021
1.3.10 智能制造 022
1.3.11 智慧物流 023
1.4 常见标注任务类型介绍 025
1.4.1 文本标注 025
1.4.2 语音标注 034
1.4.3 图像标注 037
1.5 实训习题 043
第2章 数据标注实训平台 044
2.1 平台基本功能介绍 044
2.2 平台支持标注类型及操作页面展示 050
第3章 文本标注实训 053
3.1 分类标注 053
3.1.1 认识分类标注 054
3.1.2 分类标注实训之相关性标注 056
3.1.3 相关性标注规范 057
3.1.4 实训习题 069
3.2 命名实体标注 072
3.2.1 认识命名实体及实体标注 072
3.2.2 命名实体标注实训之通用实体标注 074
3.2.3 实训习题 092
第4章 语音标注—语音切割转写 095
4.1 认识语音切割转写 095
4.2 语音切割转写实训 096
4.2.1 语音转写标注规范 096
4.2.2 项目案例分析 109
4.3 实训习题 111
第5章 图像标注—2D拉框 114
5.1 认识2D拉框 114
5.2 拉框标注之2D人体拉框标注 116
5.2.1 2D人体拉框标注规范 116
5.2.2 项目案例分析 137
5.3 实训习题 138
第6章 全流程项目实训 144
6.1 标注项目的基本操作流程 144
6.2 全流程标注项目实操步骤详解 147
6.2.1 进入全流程项目练习页并查看任务要求 148
6.2.2 原始数据获取 149
6.2.3 数据处理 150
6.2.4 项目创建 151
6.2.5 项目配置 152
6.2.6 标注实施 156
6.2.7 标注结果导出 159
6.3 全流程标注项目案例演示 160
6.4 实训习题 165