本书系统地介绍了计算机视觉主要任务及实现原理,包括图像滤波、图像变换、图像特征提取与匹配、目标检测、目标跟踪、目标识别、目标三维重构、图像分类、神经网络等。本书可作为“计算机视觉与应用”课程的培训教材,或人工智能技术应用专业的计算机视觉应用开发课程的教材,也可以作为人工智能应用领域相关技术人员的自学参考书。为方便教学,本书配备电子课件等教学资源。凡选用本书作为教材的教师均可登录机械工业出版社教育服务网www..cmpedu..com注册后免费下载。
言
Preface
人工智能(ArtificialIntelligence,AI)技术不断发展,其应用场景日益增加,正在深刻影响着诸多领域,如交通、零售、能源、化工、制造、金融、医疗、天文地理、智慧城市等,引起经济结构、社会生活和工作方式的深刻变革,并重塑世界经济发展的新格局。
人工智能技术在全球发展中的重要作用已引起国际范围内的广泛关注和高度重视,多个国家已将人工智能提升至关乎国家竞争力、国家安全的重大战略,并出台了相关政策和规划,从国家机构、战略部署、资本投入、政策导向、技术研发、人才培养、构建产业链和生态圈等方面集中发力,力求在全球竞争中抢占技术的制高点。
以习近平同志为核心的党中央高度重视人工智能发展,强调要把新一代人工智能作为推动科技跨越发展、产业优化升级、生产力整体跃升的驱动力量,努力实现高质量发展。我国人工智能发展被提升到国家战略高度,开启了我国人工智能变革与创新的新时代。
人工智能技术及产业的蓬勃发展必然带来对人工智能人才的迫切需求,尤其是对实用型、创新型、复合型人才的需求。但现在,我国人工智能领域的高端人才稀缺,培养德才兼备的高素质人工智能人才成为新时代的重要任务。
北京博海迪信息科技有限公司深耕ICT(InformationCommunicationsTechnology)教育行业至今20年,在人才培养、教材研发、实训云平台开发等诸多方面都取得了非常好的成绩。2019年3月,北京博海迪信息科技有限公司推出了“泰克人工智能创新实践平台”,在广泛的实践过程中取得了良好的应用效果。基于在ICT行业的经验积累和在人工智能方面教学成果的沉淀,北京博海迪信息科技有限公司组织多所院校老师,编写了职业教育人工智能领域系列教材,通过完备的人工智能技术知识阐述与分析,让读者更好地了解人工智能。
计算机视觉萌生于20世纪五六十年代,至20世纪末,相关理论、软/硬件技术等得到初步发展,并开始在工业环境中应用。21世纪以来,以人工智能深度学习算法为依托,高效求解复杂全局优化问题的算法得到极大发展,计算机视觉技术进入高速发展阶段。
计算机视觉主要应用于视频监控、机器/车辆的物体检测/识别/避让、医学图像分析、增强现实(AR)/虚拟现实(VR)、定位和制图、将文书转换为数据、人类情感分析、广告插入图像和视频、脸部识别、房地产开发优化等方面。在自动驾驶、教育、政务等更多的场景中开始应用计算机视觉技术,未来计算机视觉技术将在更多的领域得到广泛应用。
北京博海迪信息科技有限公司的“计算机视觉与应用”课程旨在讲解人工智能领域的重要分支———视觉智能的基本原理、概念、方法及其典型应用等,使学生能从图像预处理、几何变换与特征提取、目标检测与识别、立体视觉、图像分类与神经网络等五个方面了解并掌握计算机视觉的基本任务及其应用,拓展学生对视觉智能及人工智能的认识,提升学生在计算机视觉领域的工程能力,为学生从事相关技术的研究及应用奠定良好的基础。
本书由北京博海迪信息科技有限公司组织编写,教材内容结合“计算机视觉与应用”课程体系,包括图像滤波、图像变换、图像特征提取与匹配、目标检测、目标跟踪、目标识别、目
标三维重构、图像分类、神经网络等内容。主要让学生了解计算机视觉的发展历史、相关知识、应用领域和研究方向,掌握图像预处理和特征提取的原理和方法,掌握卷积神经网络的相关知识,掌握图像分类、目标检测、语义分割、场景理解和图像生成等的原理和经典算法等。
本书由方水平、宋玉娥任主编,刘业辉、朱贺新任副主编,郭蕊、赵元苏、杨洪涛、王笑洋参与编写。在这里要感谢北京博海迪信息科技有限公司的倾力支持。
由于计算机视觉应用技术的发展日新月异,加之编者水平有限,书中不妥之处在所难免,恳请广大读者批评指正。
编 者
前言
二维码索引
第1 章
计算机视觉与应用导论
1.1 计算机视觉概述 001
1.2 计算机视觉编程工具及环境配置 006
1.2.1 计算机视觉编程工具 006
1.2.2 计算机视觉开发环境搭建 008
第2 章
图像滤波
2.1 数字图像概述 021
2.1.1 数字图像的基本概念 021
2.1.2 图像文件格式 025
2.2 图像滤波及其应用 027
2.2.1 图像点运算 027
2.2.2 图像滤波 031
2.3 形态学处理 040
2.3.1 膨胀运算 042
2.3.2 腐蚀运算 044
2.3.3 开运算与闭运算 046
2.3.4 形态学梯度 047
2.3.5 顶帽和黑帽运算 049
第3 章
图像变换
3.1 图像采样与插值 050
3.1.1 图像采样 050
3.1.2 图像插值 052
3.2 图像变换 059
3.2.1 灰度变换 059
3.2.2 图像几何变换 062
3.2.3 图像变换应用案例 071
第4 章
图像特征提取与匹配
4.1 几何特征 074
4.1.1 图像梯度 075
4.1.2 图像边缘 076
4.1.3 角点特征 080
4.1.4 形状特征 085
4.2 图像纹理特征 085
4.2.1 图像纹理特征定义 085
4.2.2 纹理特征分析 086
4.2.3 纹理合成 089
4.3 局部图像特征 092
第5 章
目标检测
5.1 目标检测简介 103
5.2 目标检测算法 103
5.2.1 传统的目标检测算法 104
5.2.2 基于深度学习的目标检测算法 109
5.3 人脸检测 114
5.3.1 人脸检测算法 114
5.3.2 基于OpenCV 实现人脸检测 116
5.3.3 基于OpenCV 实现人脸识别 119
5.4 增强现实 124
第6 章
目标跟踪
6.1 目标跟踪概述 128
6.2 目标跟踪方法 132
6.2.1 基于相关滤波的跟踪算法 132
6.2.2 基于深度学习的跟踪方法 135
6.2.3 跨镜追踪 138
第7 章
目标识别
7.1 目标识别概述 140
7.2 目标识别的应用 143
第8 章
目标三维重构
8.1 计算机视觉三维重构的理论基础 148
8.2 相机标定 154
8.3 三维场景重建 159
8.4 三维场景重建技术的应用 160
第9 章
图像分类
9.1 机器学习概述 163
9.2 机器学习算法应用开发流程 164
9.3 图像分类概述 164
9.4 基于机器学习的图像分类算法 167
9.5 机器学习模型评价方法 171
9.6 损失函数 173
第10 章
神经网络
10.1 深度学习概述 176
10.2 卷积神经网络 176
10.3 LeNet 模型 181
10.4 VGG16 模型 184
10.5 AlexNet 模型 189
参考文献 196