大模型作为人工智能技术的重要发展方向,逐渐成为未来科技发展的重要方向之一。基于此,本书重点介绍与大模型相关的基础知识、原理与技术。本书分为14章,内容包括深度学习基础、自然语言处理、大模型网络结构、大模型训练与优化、大模型微调及相关应用案例等。全书强调内容的科学性与系统性,从大模型历史发展脉络、理论基础、构建方法到应用场景,循序渐进地全面讲解大模型技术。本书聚焦于大模型在不同领域的扩展应用,提供了应用案例的全方位学习路径,旨在培养和提升学生的实践和创造能力。每章都提供了相应的习题,供学生练习和巩固知识。同时,本书通过介绍开源框架"计图”、华为芯片、航空航天装备制造等知识,可以让学生了解更多国产技术。 本书提供了电子课件及习题参考答案等配套资源,可登录华信教育资源网(www.hxedu.com.cn)下载。本书适合作为科研院所和本科院校计算机、人工智能、机械制造与自动化等相关专业的教材,也可以作为高职高专院校的教学参考书。
魏明强,国家优青、教授、博士生导师。博士毕业于香港中文大学并获最佳博士毕业论文奖(2014)。近年来,围绕大飞机3D扫描与测量、几何深度学习和三维视觉等研究方向,主持国防基础科研、国家重点研发计划子课题、国自然优青/面上/青年以及联合主持国自然重点项目等10余项;发表学术论文150余篇,如IEEE TPAMI、CVPR等CCF A类期刊和会议,相关技术用在多个国家重点型号工程。
目 录
第1章 绪论 1
1.1 大模型基本概念 2
1.2 大模型发展历程 4
1.2.1 从技术架构看发展历程 5
1.2.2 从参数规模看发展历程 6
1.2.3 从模态支持看发展历程 6
1.2.4 从应用领域看发展历程 6
1.3 大模型关键技术及训练流程 7
1.3.1 大模型关键技术 7
1.3.2 大模型训练流程 9
1.4 本书内容安排 11
1.5 思考 12
习题1 13
第2章 深度学习基础 14
2.1 神经网络基础 14
2.1.1 神经网络 14
2.1.2 卷积神经网络 18
2.2 损失函数和优化算法 24
2.2.1 损失函数 24
2.2.2 优化算法 26
2.3 神经网络训练 29
2.3.1 梯度和链式法则 29
2.3.2 前向传播与反向传播 30
2.3.3 训练神经网络示例 32
2.4 深度学习框架 34
2.4.1 主流深度学习框架 34
2.4.2 框架选择和优缺点比较 36
2.5 思考 37
习题2 38
第3章 自然语言处理 40
3.1 自然语言处理概述 40
3.1.1 基本任务 40
3.1.2 发展历程 42
3.1.3 应用领域 43
3.2 词嵌入 44
3.2.1 独热向量 44
3.2.2 Word2vec 45
3.2.3 代码示例 48
3.3 循环神经网络 50
3.3.1 循环神经网络介绍 50
3.3.2 循环神经网络训练 51
3.3.3 循环神经网络梯度问题 52
3.3.4 双向循环神经网络 53
3.4 长短期记忆网络 54
3.4.1 长短期记忆网络介绍 55
3.4.2 长短期记忆网络应用 57
3.5 门控循环单元 61
3.5.1 门控循环单元介绍 62
3.5.2 门控循环单元应用 63
3.6 思考 67
习题3 68
第4章 大模型网络结构 69
4.1 Transformer 69
4.1.1 注意力机制 71
4.1.2 编码器-解码器结构 80
4.1.3 大模型中的编码器-解码器结构 84
4.2 编码器结构—BERT家族 87
4.2.1 BERT结构 87
4.2.2 预训练策略 89
4.2.3 BERT的变体 92
4.3 解码器结构—GPT家族 95
4.3.1 GPT结构 96
4.3.2 自回归预训练 98
4.3.3 后续改进 100
4.4 思考 104
习题4 105
第5章 大模型训练与优化 106
5.1 训练数据准备 106
5.1.1 数据获取 106
5.1.2 数据预处理 109
5.1.3 数据增强 111
5.1.4 数据配比与课程设置 114
5.1.5 开源数据集 115
5.2 并行化和分布式训练 118
5.2.1 大模型训练的挑战 118
5.2.2 并行策略 118
5.2.3 节点间数据通信 120
5.2.4 分布式训练框架 123
5.3 模型压缩 126
5.3.1 量化 127
5.3.2 剪枝 132
5.3.3 知识蒸馏 136
5.4 华为芯片助力大模型训练与部署 138
5.4.1 Ascend AI芯片 139
5.4.2 Atlas系列硬件 139
5.4.3 异构计算架构CANN 139
5.4.4 深度学习框架MindSpore 140
5.4.5 应用使能与行业应用 140
5.5 思考 140
习题5 142
第6章 大模型微调 144
6.1 大模型微调概述 144
6.2 参数高效微调 146
6.2.1 增量式微调 146
6.2.2 指定式微调 150
6.2.3 重参数化微调 151
6.2.4 混合微调 156
6.2.5 小结 157
6.3 指令微调 158
6.3.1 指令数据集构建 159
6.3.2 指令微调阶段 160
6.4 基于人类反馈的强化学习微调 161
6.4.1 奖励建模 162
6.4.2 强化学习微调 163
6.4.3 案例讲解 164
6.5 思考 166
习题6 166
第7章 大模型提示工程 168
7.1 提示工程简介 168
7.2 零样本提示 169
7.3 少样本提示 176
7.4 链式思考提示 177
7.4.1 思维链提示工程概述 177
7.4.2 零样本思维链 180
7.4.3 思维链拓展 180
7.5 思维树提示 181
7.6 检索增强生成 185
7.7 自动提示工程 185
7.8 思考 187
习题7 188
第8章 高效大模型策略 190
8.1 大模型效率概述 190
8.1.1 大模型效率面临的问题 190
8.1.2 大模型效率及其评估指标 190
8.2 预算效率策略:缩放定律 192
8.3 数据效率策略 193
8.3.1 数据过滤 193
8.3.2 主动学习/重要性采样 194
8.3.3 课程学习 194
8.4 架构效率策略 195
8.4.1 高效注意力 195
8.4.2 高效位置编码 196
8.4.3 稀疏模型 197
8.4.4 无注意力模型 197
8.5 训练效率策略 197
8.5.1 稳定训练策略 198
8.5.2 混合精度训练 198
8.5.3 并行训练技术 199
8.5.4 内存优化 200
8.6 推理效率策略 200
8.6.1 剪枝 201
8.6.2 知识蒸馏 201
8.6.3 量化 202
8.6.4 低秩分解 202
8.7 微调效率策略 203
8.7.1 参数高效微调 203
8.7.2 数据高效调整 204
8.8 思考 204
习题8 205
第9章 单模态通用大模型 206
9.1 LLaMA:一种自然语言处理大模型 206
9.1.1 模型结构 206
9.1.2 预训练 209
9.1.3 微调 209
9.1.4 使用方法 211
9.2 SAM:一种图像分割大模型 211
9.2.1 概述 212
9.2.2 提示下的图像分割任务 212
9.2.3 SAM模型架构 212
9.2.4 SA-1B:大规模掩码数据集 216
9.2.5 SAM在各视觉任务中的应用 217
9.2.6 SAM的使用方法 218
9.3 AudioLM:让AI为你谱曲写歌 219
9.3.1 概述 219
9.3.2 AudioLM的组件构成 219
9.3.3 AudioLM的训练方式 220
9.3.4 AudioLM的安装与使用 225
9.3.5 AudioLM的推理应用 225
9.4 Zero-1-to-3:二生三维 226
9.4.1 概述 226
9.4.2 Zero-1-to-3模型结构 227
9.4.3 Zero-1-to-3的使用 229
9.5 思考 231
习题9 231
第10章 多模态通用大模型 232
10.1 多模态数据集介绍 232
10.1.1 GQA数据集 232
10.1.2 HowTo100M数据集 233
10.1.3 Conceptual-12M数据集 234
10.1.4 YT-Temporal-180M数据集 234
10.1.5 WebVid-2M数据集 234
10.1.6 ModelNet数据集 234
10.1.7 ShapeNet数据集 235
10.1.8 ScanObjectNN数据集 235
10.1.9 KITTI数据集 236
10.1.10 nuScenes数据集 236
10.1.11 Waymo数据集 237
10.2 CLIP:探索图文结合的奥秘 238
10.2.1 概述 238
10.2.2 模型架构 239
10.2.3 训练过程 242
10.2.4 CLIP相关应用 244
10.2.5 CLIP的不足 247
10.3 GPT-4V:大模型视觉能力的新篇章 248
10.3.1 输入模式 248
10.3.2 工作方式 249
10.3.3 视觉语言能力 251
10.4 ImageBind:多感官统一 255
10.4.1 概述 255
10.4.2 多模态特征编码与对齐 256
10.4.3 数据集的灵活应用 257
10.4.4 相关应用 257
10.4.5 使用方法 258
10.5 3D-LLM:将三维世界注入大模型 260
10.5.1 三维语言数据生成 260
10.5.2 3D-LLM训练方式 261
10.5.3 3D-LLM安装与实现细节 263
10.5.4 3D-LLM应用图谱 264
10.6 Sora:文生视频 265
10.6.1 Sora为视频生成带来的改变 266
10.6.2 Sora的局限性与争议 268
10.7 思考 268
习题10 269
第11章 大模型评测 271
11.1 大模型评测概述 271
11.2 知识和能力评测 272
11.2.1 问答能力 272
11.2.2 知识补全能力 272
11.2.3 推理能力 272
11.2.4 工具学习能力 274
11.3 对齐评测 274
11.3.1 伦理道德 275
11.3.2 偏见 275
11.3.3 有害内容 276
11.3.4 真实性 276
11.4 安全评测 277
11.4.1 鲁棒性评测 277
11.4.2 风险评测 278
11.5 行业大模型评测 278
11.5.1 医学 278
11.5.2 教育学 279
11.5.3 计算机科学 279
11.5.4 金融学 280
11.6 思考 280
习题11 281
第12章 大模型主要应用场景 283
12.1 大模型产业图谱 283
12.2 大模型军事智能应用 284
12.3 大模型教育教学应用 286
12.4 大模型医疗健康应用 288
12.5 大模型工业应用 289
12.6 大模型气象预报应用 292
12.7 大模型测绘应用 294
12.8 思考 295
习题12 296
第13章 基于大模型的智能软件研发 297
13.1 基于大模型的智能软件研发框架 297
13.2 智能软件研发中的大模型技术 298
13.2.1 常用大模型 298
13.2.2 预训练范式 299
13.3 智能软件研发中的下游任务 300
13.3.1 程序语言相关任务 301
13.3.2 自然语言相关任务 308
13.3.3 程序语言与自然语言交互任务 311
13.4 常用数据集 317
13.4.1 预训练数据集 317
13.4.2 下游任务数据集 318
13.5 思考 320
习题13 321
第14章 基于大模型的航空航天装备制造 323
14.1 大模型在大飞机制造中的应用 323
14.1.1 大飞机制造概述 323
14.1.2 设计和优化中的应用 324
14.2 大模型在航空发动机中的应用 327
14.2.1 航空发动机概述 327
14.2.2 具体应用场景 328
14.3 大模型在航空机载设备与系统中的应用 330
14.3.1 航空机载设备与系统概述 330
14.3.2 具体应用场景 330
14.4 大模型在无人机智能集群中的应用 332
14.4.1 无人机智能集群概述 332
14.4.2 具体应用场景 334
14.4.3 典型应用案例 334
14.5 思考 337
习题14 338
参考文献 339