本书基于白蚁发育、转录组大数据与机器学习 (人工智能核心) 交叉学科结合, 对白蚁巢群结构和发育进行预测, 为精准防治提供依据。同时, 本书给出了不同于以往的针对白蚁的研究方法, 使用了各类经典模型来预测白蚁巢内的品级结构和生存状态, 并对各个模型的优劣进行了讨论, 尤其是对基于深度学习的神经网络模型构建部分进行了大量尝试和比较。
第1章 白蚁品级分化和发育
1.1 白蚁品级的类型及外部形态
1.1.1 工蚁
1.1.2 兵蚁
1.1.3 生殖蚁
1.2 品级分化途径
1.3 生殖蚁、工蚁和兵蚁的性腺发育
1.3.1 生殖蚁、工蚁和兵蚁的卵巢发育
1.3.2 生殖蚁、工蚁和兵蚁的卵子发生
1.3.3 生殖蚁、工蚁和兵蚁的精巢发育
1.3.4 生殖蚁、工蚁和兵蚁的精子发生
1.4 工蚁向生殖蚁转化的可塑性
1.4.1 工蚁向生殖蚁转化的发育途径
1.4.2 工蚁向生殖蚁转化的卵巢发育及卵子发生
1.4.3 工蚁生殖可塑性的分子机制
第2章 原始数据的处理
2.1 原始数据的概览
2.2 原始数据的过滤
2.3 原始数据的组装
2.3.1 从头组装软件:Trinity
2.3.2 使用Trinity对原始数据进行组装
2.3.3 用iAssembler处理欠拼接问题
2.4 获得蛋白编码序列(CDS)
2.4.1 CDS基础介绍
2.4.2 用transdecoder预测ORF
2.4.3 使用diamond建立索引
2.4.4 进行氨基酸序列比对和核酸序列比对
2.4.5 用hmmer进行基于hmm的蛋白数据库比对
2.4.6 用TransDecoder.Predict预测CDS
2.5 使用biowtie2和samtools获得原始计数
2.5.1 获取原始计数流程简介
2.5.2 代码实例
2.6 使用emapper进行注释
2.6.1 关于emapper和eggnog
2.6.2 代码实例
2.7 温故而知新
第3章 组间差异基因分析
3.1 使用DESeq2包筛选差异基因
3.1.1 安装R包
3.1.2 导入原始计数文件
3.1.3 使用DESeq2包
3.1.4 筛选结果
3.2 创建自己的物种注释包
3.2.1 导入注释表格
3.2.2 创建unigene到GOID的映射表格
3.2.3 创建unigene到KOID的映射表格
3.2.4 生成注释包
3.3 表达量显著差异基因富集分析
3.3.1 表达量显著差异基因的GO富集
3.3.2 GO的基因集富集分析(gsea)
3.3.3 表达量显著差异基因的KEGG富集
3.3.4 KEGG的基因集富集分析(gsea)
第4章 构建分类模型
4.1 构建数据集
4.1.1 计算rpkm
4.1.2 根据gsea结果筛选GOID
4.1.3 构建表达量数据集
4.2 随机森林
4.3 支持向量机
4.3.1 寻找合适的参数
4.3.2 构建svm模型
4.4 KNN
4.5 判别分析
4.5.1 线性判别lda
4.5.2 非线性判别qda
4.6 梯度提升机
4.6.1 安装H2O包
4.6.2 导入数据集
4.6.3 构建GBM模型
4.6.4 搜索合适的参数来改善模型
4.7 深度学习(基于H2O包)
4.7.1 神经网络简介
4.7.2 激活函数
4.7.3 构建神经网络模型
4.7.4 超参数搜索
第5章 基于Keras的深度学习
5.1 Keras简介
5.2 再次处理数据集
5.3 用Keras构建第一个神经网络模型
5.3.1 搭建一个全连接网络模型
5.3.2 了解你的神经网络层
5.3.3 编译模型
5.3.4 训练模型
5.3.5 使用模型来预测新数据集
5.4 卷积神经网络
5.4.1 认识卷积层
5.4.2 池化操作
5.4.3 使用卷积神经网络
5.4.4 改变数据格式
5.4.5 训练模型
5.5 循环神经网络
5.5.1 循环神经网络简介
5.5.2 使用一个简单的RNN
5.5.3 LSTM和GRU
5.6 一维卷积
5.7 深度可分离卷积
5.8 双向循环神经网络
5.9 函数API
5.9.1 函数API简介
5.9.2 利用函数API构建多输入模型
5.9.3 在训练中加入Tensorboard
5.10 将新数据用于qda和GBM模型
5.10.1 qda
5.10.2 GBM模型
参考文献