数据的获取方式、数据的形式及其结构纷繁芜杂,如何把数据整理成我们想要的样子呢?本书通过真实案例构建了数据准备过程中的方法与技术体系,并通过Python 3编程实现从数据获取到数据整理的全过程。
全书内容包括数据来源、数据类型、数据编码、数据清洗、数据插补、数据配平、数据重构、数据变换、数据缩放和数据归约。为使读者能够快速掌握数据准备的方法与技术,本书的数据文件与程序代码均可下载(见封底二维码)。线上操作平台地址为http://ykt.ai-learning.net。
本书既可作为高等院校的数据分析类课程教材,也可作为社会科学领域数据分析的自学用书。从事数据分析与数据管理工作的相关人员,以及用Python解决实际数据分析问题的工程技术和管理人员亦可参考使用。
阮敬 博士、教授、博士生导师。首都经济贸易大学数据科学学院副院长。兼任第七届全国统计教材编审委员会学术委员、数据科学与大数据应用组副组长,中国现场统计研究会副秘书长、经济与金融统计分会副理事长,中国统计教育学会副秘书长、高等教育分会秘书长,全国工业统计学教学研究会常务理事,中国青年统计学家协会创会秘书长,北京大数据协会副会长、秘书长,《统计学报》《统计与精算》编委等。研究领域为经济统计、大数据分析。在国内外发表论文70余篇,出版专著、译著、教材16部。主持国家级和省部级科研项目及企事业单位横向课题50余项。荣获全国统计科学研究优秀成果奖、全国应用统计专业学位研究生优秀教育教学成果奖、北京市哲学社会科学优秀成果奖、北京市优秀调查研究成果奖等10余项省部级及以上科研和教学奖励。
任韬 博士、教授、博士生导师。首都经济贸易大学商务学院院长。兼任北京大数据协会副会长,中国商业统计学会常务理事、市场调查与教学研究分会副会长兼秘书长、数据科学与商业智能分会副会长,中国国民经济核算研究会常务理事等。主要研究方向为大数据分析,经济统计学。主持多项国家社会科学基金项目、教育部人文社会科学基金项目。在国内外发表学术论文20余篇,出版学术专著及教材7部。
第1 章 数据来源
1.1 调查和观察数据
1.1.1 调查数据
1.1.2 观察数据
1.2 数据库数据
1.2.1 关系型数据库
1.2.2 非关系型数据库
1.3 爬虫数据
1.4 日志数据
第 2 章 数据类型
2.1 结构化数据
2.1.1 基本数据类型
2.1.2 二维表结构数据
2.2 集合数据类型
2.2.1 列表
2.2.2 元组
2.2.3 字典
2.2.4 集合
2.2.5 推导式
2.3 其他常见的结构化数据
2.3.1 数组
2.3.2 矩阵
2.3.3 数列
2.3.4 数据帧
2.3.5 日期时间型数据
2.4 非结构化数据
2.4.1 网页与 JSON 数据
2.4.2 图像数据
2.4.3 音频数据
2.4.4 视频数据
第 3 章 数据编码
3.1 数据编码的基本要求和原则
3.2 数据编码的结构类型
3.2.1 分类编码
3.2.2 顺序编码
3.2.3 分段编码
3.2.4 值标签编码
3.2.5 Dummy/虚拟变量编码
3.2.6 尺度编码
第 4 章 数据清洗
4.1 异常值清洗
4.1.1 异常值识别
4.1.2 异常值处理
4.2 重复数据清洗
4.2.1 重复数据检测
4.2.2 重复数据删除
4.3 低频类别清洗
4.3.1 观察低频识别
4.3.2 低频类别处理
4.4 数据纠错
4.4.1 逻辑纠错
4.4.2 格式纠错
4.5 数据纠偏
4.5.1 数据偏度识别和测量
4.5.2 数据偏度的纠正
第5 章 数据插补
5.1 缺失值产生原因及其表现
5.1.1 缺失值的含义
5.1.2 缺失值的类型
5.1.3 缺失值产生的原因
5.1.4 缺失值的影响
5.1.5 缺失值的表现形式
5.2 缺失值插补
5.2.1 简单统计量插补
5.2.2 聚类插补
5.2.3 模型插补
5.3 MVP
5.3.1 MVP 分析思路
5.3.2 MVP 提取方法
第 6 章 数据配平
6.1 不平衡数据
6.1.1 不平衡数据的含义
6.1.2 不平衡数据的影响
6.2 数据配平方法
6.2.1 欠采样
6.2.2 过采样
6.2.3 混合采样
6.3 数据配平的影响
6.3.1 数据配平的效果
6.3.2 模型预测结果的偏离及其校正方法
6.3.3 欠采样对预测稳定性的影响
第 7 章 数据重构
7.1 数据组合
7.1.1 序列组合
7.1.2 水平组合
7.1.3 垂直组合
7.1.4 深度组合
7.1.5 列组合
7.1.6 行组合
7.2 轴向连接
7.2.1 左右拼接
7.2.2 数据追加
7.3 数据融合
7.3.1 键融合
7.3.2 索引融合
7.3.3 插补融合
7.4 数据重塑
7.4.1 Panel
7.4.2 层次化索引
7.4.3 stack与unstack
7.5 数据分拆
7.5.1 水平分拆
7.5.2 垂直分拆
7.5.3 深度分拆
7.5.4 逻辑分拆
7.5.5 随机采样与数据分割
7.6 数据聚合
第 8 章 数据变换
8.1 数据变换的含义和作用
8.2 连续数据函数变换
8.2.1 对数变换
8.2.2 平方根变换
8.2.3 平方变换
8.2.4 倒数变换
8.2.5 幂变换与 BOX-COX 变换 176
8.3 连续数据离散化
8.3.1 客观法
8.3.2 主观法
8.4 数据次序化
8.4.1 升降次序
8.4.2 位置与秩
8.4.3 秩的计算方法
8.4.4 秩的缺失值处理
8.4.5 DataFrame 中的秩
8.5 多分类数据哑变量化
8.5.1 哑变量的概念与特征
8.5.2 哑变量与 one-hot 码
8.5.3 多分类数据转换为哑变量 196
8.5.4 多分类数据转换为 one-hot 码
8.6 定性数据数量化
8.6.1 顺序数据转化为得分
8.6.2 构造定性数据的平滑值
第 9 章 数据缩放
9.1 数据缩放的概念
9.2 数据缩放方法
9.2.1 中心化
9.2.2 标准化
9.2.3 Min-Max 缩放
9.2.4 Max-ABS 缩放
9.2.5 Robust 缩放
第 10 章 数据归约
10.1 数据归约的概念
10.2 变量选择方法
10.2.1 使用统计量
10.2.2 决策树模型
10.2.3 Lasso 算法
10.3 样本归约
参考文献