大数据挖掘与统计机器学习(第3版)(新编21世纪研究生系列教材·应用统计硕士(MAS))
定 价:59 元
丛书名:新编21世纪研究生系列教材·应用统计硕士(MAS)
- 作者:吕晓玲 宋捷
- 出版时间:2024/7/1
- ISBN:9787300326894
- 出 版 社:中国人民大学出版社
- 中图法分类:TP274;TP181
- 页码:
- 纸张:
- 版次:3
- 开本:16
本书介绍了大数据挖掘与统计机器学习领域最常用的模型和算法,包括最基础的线性回归和线性分类方法,以及模型选择和模型评价的概念和方法,进而介绍非线性的回归和分类方法(包括决策树与组合方法、支持向量机、神经网络以及在此基础上发展的深度学习方法)。最后介绍无监督的学习中的聚类方法和业界广泛使用的推荐系统方法。除了方法的理论讲解之外,我们还给出了每种方法的R语言代码实现以及Python语言代码实现的上机实践。
吕晓玲,中国人民大学统计学院教授,副院长。本科与硕士毕业于南开大学数学系概率统计专业,博士毕业于香港城市大学管理科学系。曾经是奥地利约翰开普勒大学应用统计系以及美国加州大学伯克利分校统计系访问学者。一直从事数据挖掘和统计机器学习领域的理论研究,及其在消费者行为方面的应用研究。宋捷,首都经济贸易大学统计学院副教授。
第1章 概述
1.1 名词演化
1.2 基本内容
1.3 数据智慧
第2章 线性回归与分类
2.1 Lasso回归
2.1.1 多元线性回归模型
2.1.2 岭回归
2.1.3 Lasso回归
2.1.4 一张图看懂岭回归和 Lasso 回归
2.1.5 从贝叶斯角度再看岭回归和 Lasso 回归
2.2 Lasso模型的求解
2.2.1 坐标下降法
2.2.2 最小角回归
2.2.3 ADMM算法
2.2.4 附录
2.3 损失函数加罚的建模框架
2.3.1 损失函数的概念
2.3.2 最小一乘回归与分位回归
2.3.3 其他罚函数
2.4 分类问题综述与评价准则
2.4.1 分类问题
2.4.2 分类问题评价准则
2.5 Logistic回归
2.5.1 基本模型
2.5.2 参数估计
2.5.3 正则化的 Logistic 回归
第3章 模型评价与选择
3.1 基本概念
3.1.1 各种误差的定义
3.1.2 偏差–方差分解
3.2 理论方法
3.2.1 Cp统计量
3.2.2 AIC准则
3.2.3 BIC准则
3.3 交叉验证法
第4章 决策树与组合方法
4.1 决策树
4.1.1 决策树的基本知识
4.1.2 决策树的建模过程
4.1.3 需要说明的一些问题
4.2 Bagging和随机森林
4.2.1 Bagging算法
4.2.2 随机森林
4.3 Boosting
4.3.1 AdaBoost算法
4.3.2 分类问题的不同损失函数
4.3.3 梯度下降Boosting算法
4.3.4 XGBoost
4.3.5 讨论
4.3.6 Boosting 算法的进一步研究
4.3.7 附录
第5章 支持向量机
5.1 线性可分支持向量机
5.1.1 简介
5.1.2 模型
5.2 软间隔支持向量机
5.2.1 模型
5.2.2 求解软间隔支持向量机
5.2.3 SMO 算法
5.3 一些拓展
5.3.1 非线性可分与核函数
5.3.2 LIBSVM简介及其Python实现
5.3.3 从损失函数加罚的角度再看 SVM
5.3.4 支持向量机回归
第6章 聚类分析
6.1 基于距离的聚类
6.1.1 距离(相似度)的定义
6.1.2 层次聚类
6.1.3 K-均值聚类
6.2 基于密度的聚类
6.2.1 DBSCAN聚类
6.2.2 OPTICS聚类
6.3 双向聚类
6.3.1 双向聚类概述
6.3.2 BIMAX算法
6.3.3 CC算法
第7章 智能手机用户监测数据案例分析
7.1 数据简介
7.2 单机实现
7.2.1 描述统计分析
7.2.2 APP使用情况预测分析
7.2.3 用户行为聚类分析
7.3 分布式实现
7.3.1 数据预处理与描述分析
7.3.2 基于Spark的模型分析
第8章 神经网络基础
8.1 前馈神经网络
8.1.1 生物神经元
8.1.2 人工神经元
8.1.3 前馈网络
8.2 反向传播算法
8.2.1 前向传播
8.2.2 损失函数
8.2.3 反向传播
8.2.4 激活函数的选择
8.2.5 超参数
8.3 PyTorch应用实例
8.3.1 三次多项式拟合正弦函数案例
8.3.2 手写数字识别案例
8.3.3 附录:PyTorch基本操作
第9章 卷积神经网络与网络优化
9.1 卷积神经网络
9.1.1 CNN的基本结构
9.1.2 CNN算法的实现
9.1.3 几种常见的CNN模型
9.2 网络优化
9.2.1 网络优化问题
9.2.2 小批量梯度下降
9.2.3 学习率调整
9.2.4 动量优化法——更新方向优化
9.2.5 Adam算法
9.2.6 优化方法小结
9.2.7 其他考虑
第10章 循环神经网络和注意力机制
10.1 文本表示与词嵌入模型
10.1.1 文本表示的基本方法
10.1.2 NNLM模型
10.1.3 Word2Vec模型
10.1.4 Glove模型
10.2 循环神经网络
10.2.1 研究问题与基本结构
10.2.2 随时间反向传播算法
10.2.3 LSTM
10.2.4 其他RNN网络
10.3 注意力机制
10.3.1 注意力机制基本介绍
10.3.2 Transformer模型及其拓展
参考文献