深度学习是新一代人工智能所使用的主要技术。本书深入浅出地讲解了深度学习的相关技术,包括深度学习编程基础、目标分类、目标检测、图像分割、生成对抗网络等。对每种技术,本书均从原理和程序实现两个方面进行讲解。在原理方面,讲解算法和技术的相关背景、主要算法思想和原理;在程序实现方面,从数据准备、神经网络模型实现、损失函数实现、整体训练流程和效果展示五部分对算法的实现进行具体介绍,帮助读者深入了解算法的细节,积累相关实践经验。
本书是《深度学习与人工智能》的配套用书,适合深度学习领域的初学者,以及高校高年级本科生和研究生阅读学习。
本书各章节的源代码和实验数据集可通过本书的GitHub主页下载,以供读者自主练习。
本书作者是大数据与人工智能领域的权威专家,技术背景强大,在学术界和工业界均取得了显著成就,多次获得国际奖项,研究成果广泛受到媒体关注。
本书按照知识由浅入深、循序渐进的规律编写而成。根据深度学习技术的特点,将内容划分为数据准备、神经网络模型实现、损失函数实现、整体训练流程和效果展示五部分。逻辑清楚,可操作性强、更易理解。
本书是一本学习深度学习与人工智能实战指南,书中给出了核心算法和技术的原理讲解+真实完整的项目案例+可下载的源代码和实验数据集。
前 言
本书按照知识由浅入深、循序渐进的规律编写而成。内容分为三大部分,第一部分是Python和PyTorch编程基础,介绍常用的函数及其用法;第二部分是初级深度学习算法与技术,含基础卷积神经网络的实现,目标识别、人脸表情识别等实战;第三部分是高级深度学习算法和技术,含孪生神经网络、度量学习、蒸馏学习、目标检测、图像分割、图像生成等技术及实战。本书的附录还提供了常用PyTorch函数速查手册。
本书根据深度学习技术的特点,将内容划分为数据准备、神经网络模型实现、损失函数实现、整体训练流程和效果展示五部分。这种章节内容安排方式逻辑清楚,可操作性强、更易理解。
本书是一本实战性较强的深度学习书籍,书中内容基于作者多年来的理论与实践积累。感谢以下人员对本书的完成所提供的巨大帮助:
1)随着三年深度学习上机课的开展,助教杜凯、韩诗阳、邓斌权积累了各章节的实验素材和代码。
2)每章的实验内容的材料整理主要由陈承功和邓斌权负责(两者在此部分的贡献占比分别为70%和30%)。
本书的主要定位是深度学习的实践参考书,但也包含了对相关算法和技术的原理讲解。本书是将于2024年出版的《深度学习与人工智能》的配套用书。
本书各章节的源代码和实验数据集已对外公开,读者可通过本书的GitHub主页下载、自主练习。主页地址为:DLBook.github.jo
本书的出版,得到了河南大学教材建设基金项目和河南大学研究生教育创新和质量提升工程项目的支持,在此致谢。
张重生
2023年12月1日
张重生,男,1982年9月生,博士,河南大学计算机与信息工程学院教授、博士生导师。 2012年博士毕业于法国国家信息与自动化研究所(INRIA)。研究方向为大数据、人工智能。主持20余项科研项目(含国家自然科学基金项目1项、人文社会科学研究一般项目1项),在AAAI、SIGKDD顶级国际会议及知名期刊上发表学术论文近50篇,获得法国数据挖掘会议EGC 2010最佳论文奖及奖金1500欧元。出版著译作6部,作为第一发明人申请/授权近20项国家发明专利。曾作为主要成员之一执笔《河南省大数据产业发展引导目录》、《河南省国家大数据综合试验区实施方案》并由河南省人民政府颁布实施。主研“AI缀多多”软件,实现了人工智能批量缀合甲骨,在古文字与人工智能结合方面取得了率先突破,受到新华社、河南卫视、河南日报、大河报、郑州晚报、中国青年报、环球网、腾讯网等媒体的广泛报道,其作为特邀嘉宾参与录制的CCTV-10《透视新科技》“智破甲骨之谜”节目于2023年11月5日在CCTV-10正式播出。
前言
第1章 张量运算及图像处理基础1
1.1 张量与张量运算1
1.1.1 张量的概念1
1.1.2 张量的基本属性2
1.1.3 张量生成4
1.1.4 张量维度和索引7
1.1.5 张量之间的运算11
1.2 图像处理的基础操作14
1.2.1 PIL图像处理包简介15
1.2.2 常见的图像处理操作15
第2章 深度学习编程基础21
2.1 卷积神经网络的基本概念和常用函数21
2.1.1 卷积层21
2.1.2 池化层23
2.1.3 全连接层23
2.1.4 激活函数24
2.1.5 PyTorch中的神经网络结构/模型构建方法24
2.2 PyTorch中的数据处理操作26
2.2.1 PyTorch自带的数据集使用26
2.2.2 自定义数据集的使用29
2.2.3 PyTorch中的数据预处理模块transforms31
2.3 PyTorch中的损失函数使用32
2.4 PyTorch中的优化器使用33
2.4.1 优化器33
2.4.2 学习率调整35
2.5 PyTorch中模型训练的整体流程35
第3章 简单的卷积神经网络实现40
3.1 LeNet-5卷积神经网络实现40
3.1.1 数据准备40
3.1.2 LeNet-5神经网络结构/模型定义42
3.1.3 wandb可视化工具43
3.1.4 整体训练流程44
3.1.5 效果展示46
3.2 AlexNet卷积神经网络实现46
3.2.1 数据准备46
3.2.2 AlexNet神经网络结构/模型定义48
3.2.3 整体训练流程50
3.2.4 效果展示50
第4章 基于深度学习的简单目标识别51
4.1 基于VGG骨干网络的目标分类51
4.1.1 VGG介绍51
4.1.2 VGG16网络实现52
4.1.3 基于VGG16进行CIFAR数据集分类54
4.2 基于ResNet骨干网络的目标分类55
4.2.1 ResNet神经网络的设计原理55
4.2.2 ResNet-18神经网络模型实现56
4.2.3 基于ResNet-18的目标分类60
第5章 基于深度学习的人脸表情识别61
5.1 人脸表情数据准备61
5.2 基于ResNet神经网络的人脸表情识别64
5.2.1 网络定义64
5.2.2 整体训练流程65
第6章 孪生神经网络及人脸验证实战66
6.1 孪生神经网络原理66
6.2 基于孪生神经网络的人脸验证实战68
6.2.1 数据准备68
6.2.2 孪生神经网络实现70
6.2.3 损失函数实现72
6.2.4 整体训练流程72
6.2.5 效果展示74
第7章 CosFace损失函数原理及人脸识别实战76
7.1 CosFace76
7.2 基于CosFace的人脸识别实战78
7.2.1 数据准备78
7.2.2 损失计算79
7.2.3 整体训练流程80
7.2.4 效果展示82
第8章 蒸馏学习原理及实战84
8.1 知识蒸馏原理84
8.1.1 蒸馏网络的神经网络结构84
8.1.2 蒸馏学习过程85
8.2 知识蒸馏实战86
8.2.1 训练学生模型86
8.2.2 训练教师模型89
8.2.3 蒸馏学习的损失函数89
8.2.4 蒸馏学习过程90
8.2.5 效果展示92
第9章 Faster R-CNN目标检测算法原理及实战93
9.1 Faster R-CNN目标检测算法原理93
9.1.1 Faster R-CNN的神经网络结构93
9.1.2 Faster R-CNN的目标矩阵构造94
9.1.3 Faster R-CNN的损失函数设计95
9.1.4 Faster R-CNN的整体工作流程96
9.2 Faster R-CNN目标检测实战97
9.2.1 数据准备97
9.2.2 损失定义101
9.2.3 Faster R-CNN的神经网络模型实现103
9.2.4 整体训练流程118
9.2.5 效果展示121
第10章 YOLO v3目标检测算法原理及实战125
10.1 YOLO v3目标检测算法原理125
10.1.1 YOLO v3神经网络结构125
10.1.2 YOLO v3目标矩阵构造方法126
10.1.3 YOLO v3损失函数设计128
10.2 YOLO v3目标检测实战129
10.2.1 数据准备130
10.2.2 YOLO v3神经网络实现/模型定义134
10.2.3 损失定义138
10.2.4 整体训练流程145
10.2.5 效果展示148
第11章 FCN图像分割算法原理及实战156
11.1 FCN图像分割算法原理156
11.2 FCN图像分割实战158
11.2.1 数据准备158
11.2.2 FCN的神经网络结构/模型定义159
11.2.3 整体训练流程162
11.2.4 效果展示166
第12章 U-Net图像分割算法原理及实战168
12.1 U-Net图像分割算法原理168
12.2 基于U-Net的图像分割实战170
12.2.1 U-Net的模型定义/神经网络结构170
12.2.2 U-Net的损失函数/Dice损失173
12.2.3 整体训练流程174
12.2.4 效果展示179
第13章 DCGAN生成对抗网络原理及其图像生成实战180
13.1 DCGAN生成对抗网络原理180
13.1.1 DCGAN生成器模型180
13.1.2 DCGAN的判别器模型182
13.1.3 DCGAN的损失函数183
13.1.4 DCGAN的训练过程183
13.2 基于DCGAN的图像生成技术实战184
13.2.1 定义判别器185
13.2.2 定义生成器187
13.2.3 定义损失函数188
13.2.4 整体训练流程189
13.2.5 效果展示192
附录194
附录A PyTorch开发环境配置194
附录B 常用PyTorch函数速查手册199