本书共包括7章,涵盖了从基础理论到实际应用的全方位内容。第1章深入探讨了大模型的基础理论。第2章和第3章专注于Llama 2大模型的部署和微调,提供了一系列实用的代码示例、案例分析和最佳实践。第4章介绍了多轮对话难题,这是许多大模型开发者和研究人员面临的一大挑战。第5章探讨了如何基于Llama 2定制行业大模型,以满足特定业务需求。第6章介绍了如何利用Llama 2和LangChain构建高效的文档问答模型。第7章展示了多语言大模型的技术细节和应用场景。本书既适合刚入门的学生和研究人员阅读,也适合有多年研究经验的专家和工程师阅读。通过阅读本书,读者不仅能掌握Llama 2大模型的核心概念和技术,还能学会如何将这些知识应用于实际问题,从而在这一快速发展的领域中取得优势。
张俊祺,清华大学计算机系博士,曾获CIKM 2018唯一最佳论文奖、 2022年中关村U30等荣誉,原子回声创始人。曲东奇,东南大学毕业,德国亥姆霍兹研究中心访问学者。张正,清华大学计算机系毕业,对于深度学习、自然语言处理技术有着极其丰富的研究和产业经验,组织训练和研发了原子大模型。占冰强,AIGCLINK发起人,中关村超互联联盟副秘书长,行行AI合伙人,曾联合创办算法和数学建模交流平台数学中国。
第1章 大模型的基础理论
1.1 大模型的发展历史
1.1.1 从语言模型到预训练大模型
1.1.2 预训练大模型的发展
1.1.3 大模型的进化
1.2 大模型的核心框架
1.2.1 Transformer
1.2.2 位置编码
1.2.3 多头自注意力机制
1.3 数据收集和数据处理
1.3.1 数据收集
1.3.2 数据处理
1.4 大模型的预训练及微调
1.4.1 无监督预训练
1.4.2 指令微调
1.4.3 基于人类反馈微调
1.5 大模型的评测
1.5.1 评测任务
1.5.2 评测数据集
1.5.3 评测方法
1.5.4 评测中的挑战
第2章 部署Llama 2大模型
2.1 部署前的准备
2.1.1 硬件准备
2.1.2 环境准备
2.2 模型的导入与加载
2.2.1 下载代码
2.2.2 下载模型
2.3 模型部署
2.3.1 API部署
2.3.2 text-generation-webui 部署
2.3.3 使用text-generation-webui
第3章 微调Llama 2大模型
3.1 微调的数据集准备和标注
3.1.1 数据集准备
3.1.2 数据集标注
3.2 Llama 2大模型加载
3.3 微调策略设计及模型重新训练
3.3.1 微调策略设计
3.3.2 模型参数高效微调
3.4 模型评估、测试和模型优化
3.4.1 模型评估、测试
3.4.2 模型优化
3.5 模型保存、模型部署和推理加速
3.5.1 模型保存
3.5.2 模型部署
3.5.3 推理加速
第4章 解决Llama 2大模型多轮对话难题
4.1 定制多轮对话数据集和构造方法
4.1.1 准备微调训练数据的7个原则
4.1.2 定制微调训练数据集
4.1.3 多轮对话的3个场景
4.2 实操构造多轮对话微调训练数据集
4.3 通过多轮对话存储解决信息流失问题
4.3.1 拼接历史与当前输入
4.3.2 上下文向量
4.3.3 对话状态追踪
4.3.4 状态压缩
4.3.5 增量学习和在线学习
4.4 提高大模型多轮对话应对能力
4.4.1 针对性的数据集与微调
4.4.2 实时反馈与自适应
4.4.3 强化学习优化
4.4.4 上下文感知与个性化
4.4.5 多模态与多任务学习
4.4.6 错误处理与恢复策略
4.5 模型评估与持续改进
4.5.1 微调Llama 2大模型评估
4.5.2 持续改进
4.6 适合Llama 2大模型多轮对话的prompt构建
第5章 基于Llama 2定制行业大模型
5.1 业务数据分析指导行业大模型定制
5.1.1 行业大模型的定制策略
5.1.2 模型性能的评估
5.2 行业数据的获取与预处理
5.2.1 数据获取
5.2.2 数据预处理
5.3 Llama 2大模型导入初始化
5.4 微调获得行业特定大模型
5.4.1 领域预训练
5.4.2 微调策略
5.5 模型测试、评估和优化
第6章 Llama 2 + LangChain文档问答模型构建
6.1 LangChain介绍
6.2 LangChain的主要概念与示例
6.2.1 模型
6.2.2 提示
6.2.3 输出解析器
6.2.4 索引
6.2.5 内存
6.2.6 链
6.2.7 代理
6.2.8 工具
6.3 LangChain 环境配置
6.3.1 Python环境搭建
6.3.2 LangChain主要模块
6.4 Llama 2+LangChain文档问答模型评估
6.4.1 设置虚拟环境和创建文件结构
6.4.2 Llama 2和LangChain的交互流程
6.4.3 具体案例
第7章 多语言大模型技术介绍及其工业应用
7.1 多语言大模型的研究现状和技术方向
7.1.1 为什么进行多语言研究
7.1.2 多语言在NLP社区的发展
7.1.3 多语言模型技术方向
7.2 多语言大模型的预训练资源和评测任务
7.2.1 多语言大模型的预训练资源介绍
7.2.2 评测任务介绍
7.3 多语言大模型的优化方向
7.3.1 数据预处理流程
7.3.2 Tokenizer
7.3.3 训练数据格式和采样策略
7.3.4 多语言大模型的训练任务
7.3.5 多语言大模型的优化方向总结(以Llama 2为例)
7.4 多语言大模型的工业应用
7.4.1 智能客服
7.4.2 搜索引擎
7.4.3 机器翻译