内容简介
这是一本金融数据挖掘与分析领域的实战性著作,它能指导零Python编程基础和零数据挖掘与分析基础的读者快速掌握金融数据挖掘与分析的工具、技术和方法。
读完本书,你将会有如下3个方面的收获:
(1)Python编程基础和数据预处理
首先详细讲解了Python的核心语法,以及NumPy、Matplotlib、PySpark、Jupyter Notebook等Python数据处理工具的使用;然后详细介绍了数据预处理的流程和技巧。通过深入浅出的语言和丰富的样例展示,帮助初学者快速上手 Python,为之后的数据分析实战夯实基础。
(2)数据挖掘与分析的经典方法
详细讲解了经典的数据挖掘方法,包括聚类分析、回归分析、分类分析、异常检测、关联分析、时间序列分析等。
(3)主要金融应用场景的数据挖掘方法
针对网络舆情的采集和热点分析、舆情分析中的情感分析、股价趋势预测、个人信用评分、企业信用评分、用户画像、目标客户精准分析、销售数据分析等金融行业的常见应用场景,给出了数据挖掘和分析的方法。
本书注重实战,配有大量精心设计的案例,同时还有配套的视频讲解、代码和数据资源,可操作性强。
作者背景资深:作者是云计算、大数据和AI领域的知名专家,云创大数据总裁、中国大数据应用联盟人工智能专家委员会主任。写作经验丰富:作者团队写作经验丰富,不仅深谙数据挖掘技术和金融行业,而且有丰富的出版经验,能准确把握读者需求。零基础快入门:即便读者没有Python经验,没有数据挖掘和分析经验,也能快速掌握常见金融应用场景的数据挖掘和分析。实战性强:本书配有大量精心设计的案例、讲解视频、实现代码、数据资源、习题及其答案。
为何会写本书
数据挖掘是指从大量的数据中,通过统计、人工智能、机器学习等方法,挖掘人们未知的、有价值的信息和知识的过程。它带来的颠覆性在于将隐藏在大量杂乱数据中的有用信息提炼出来,通过算法自动寻找变量间的关系。
随着时代的发展,数据挖掘逐渐成为大数据技术的核心,如何挖掘并分析数据成为大数据技术发展面临的重要议题。特别是在金融应用领域,数据挖掘技术扮演着举足轻重的角色。即使如此,纵观目前国内技术图书市场,真正结合理论与实践讲解金融领域数据挖掘与分析技术的图书很少,可以系统呈现知识点并将代码落地的专业书更是凤毛麟角。
基于此,本书以应用为导向,从数据挖掘出发,借助Python语言,将数据挖掘理论知识与金融领域的实际应用相结合,循序渐进地介绍了Python金融数据的挖掘与分析。此外,本书每一章均配有视频讲解,详解代码每一步的运行过程及原理,并提供完整代码和数据资源,以帮助读者更好地理解与应用相关知识。
本书特色
一、内容精炼,普适性强
本书从数据分析的工具入手,详解Python的基础规则和语法,由浅入深地讲解深度学习相关算法和理论知识,并与金融数据挖掘实战充分结合,可以帮助读者在理解理论知识的基础上体验数据分析实战,真正做到学以致用。
二、提供大量实战经验和学习实例
“授之以鱼,不如授之以渔。”本书在讲解知识点时,更注重方法与经验的分享,包括“含金量”很高的成功经验分享以及易错事项的总结分析。同时,每章均提供一定的实例,将原理讲解终落实到代码实现上,帮助读者在学习路上披荆斩棘,快速将理论与实践融会贯通。
三、配备教学视频和完整的源代码
为了方便读者学习,作者针对每章内容的核心知识点录制了讲解视频,且提供PPT、完整代码和数据资源。读者关注公众号“云创大数据”(cStor_cn),在公众号回复本书书名,即可领取相关配套资源,使学习更为高效。每一章的习题答案也可从公众号获取。
四、针对初学者讲解Python基础知识
本书使用Python语言编写代码,通过深入浅出的语言与丰富的样例展示,帮助初学者快速上手Python语言。
内容简介
本书共分为14章,采用双主线的写作方式:一条主线是理论,涵盖基础理论相关概念的介绍以及各种算法原理的讲解;另外一条主线是实战,既包括如何上手Python,又包括相关主题实例分析。
第1~3章为Python数据分析基础,内容涵盖了选取Python语言做数据分析的原因、Jupyter Notebook的使用、Python基础知识和语法入门以及数据预处理流程和技巧,可帮助初学者快速上手Python,为之后的数据分析实战夯实基础。
第4章讲解经典的数据挖掘方法,包括聚类分析、回归分析、分类分析、异常检测、关联分析、时间序列分析等。
本书从第5章开始介绍深度学习相关的理论知识与实践。其中,第5章主要介绍网络舆情的采集和热点分析,并通过爬取微博热门评论对热点话题进行聚类分析,使读者初步了解网络舆情分析,为以后深入研究网络舆情发展和变化打下坚实的基础。第6章详细介绍舆情分析的重中之重:情感分类。从评论文本分析出用户的情感倾向,精确掌握用户对于某一产品的整体使用感受,便于向商户提供产品决策支持信息。
第7章和第8章讲解利用传统的机器学习算法以及深度学习中的循环神经网络对股价趋势进行预测,重点阐述了SVM算法和ARIMA算法,同时证明了市场情感对股票市场的发展趋势有着不容忽视的影响。
第9~11章介绍了个人信用评分和企业信用评分的技术与方法,先后阐述了相关算法及理论基础,并结合具体实例,让读者更加清晰地了解并掌握个人及企业信用评估的整个流程。
人物画像有利于精准定位用户群体并获取用户需求和反馈信息。第12章主要讲解用户画像,包括用户画像的定义、标签体系、用户画像的意义以及用户画像的构建等,还通过两个用户画像的实战案例,帮助读者在实际应用中进一步理解和构建用户画像。
第13章主要讲述搭建目标客户运营体系流程、目标客户的挖掘与分类等,通过可视化展示、聚类算法以及LRFMC分类模型的建立精确区分目标客户,从而实现对客户的精准分群管理,达到稳固企业运营体系的目的。第14章通过对销售数据的进一步分析挖掘,同时借助关联规则—Apriori算法—实现商品智能推荐、关联商品的组合销售以及客户的精准营销,终达到让企业获取更多利润的目的。
读者对象
本书适合以下几类读者:
金融行业数据相关岗位技术人员;
企业运营人员;
数据分析师;
数据挖掘工程师;
高等院校相关专业学生。
致谢
在此,特别感谢我的硕士导师谢希仁教授和博士导师李三立院士。谢希仁教授出版的《计算机网络》已经更新到了第8版,堪称与时俱进且日臻完美的典范,这时时提醒着我们要以这样的标准来写书。李三立院士是留苏博士,为我国计算机事业做出了杰出贡献,曾任国家攀登计划计算项目首席科学家。他治学严谨,带出了一大批杰出的学生。
本书是集体智慧的结晶,在此谨向付出辛勤劳动的各位同行者致敬!书中难免会有不当之处,请读者不吝赐教。我的邮箱为gloud@126.com,微信公众号为“刘鹏看未来”(lpoutlook)。
刘 鹏
2021年9月
作者介绍
刘鹏
教授,清华大学博士,云计算、大数据和人工智能领域的知名专家,南京云创大数据科技股份有限公司总裁、中国大数据应用联盟人工智能专家委员会主任。
中国电子学会云计算专家委员会云存储组组长、工业和信息化部云计算研究中心专家。中国信息协会教育分会人工智能教育专家委员会主任、教育部全国普通高校毕业生就业创业指导委员会委员、“2019年全国大学生数学建模比赛”命题人、“第45届世界技能大赛”中国区云计算选拔赛裁判长/专家指导组组长、2002 PennySort国际计算机排序比赛冠军与2003年全国挑战杯总冠军。提出的反垃圾邮件网格,被IEEE Cluster 2003评为杰出网格项目,为解决困扰全球的垃圾邮件问题做出根本贡献,该技术成为云安全技术的基础。
高中强
人工智能与大数据领域技术专家,有非常深厚的积累,擅长机器学习和自然语言处理,尤其是深度学习,熟悉Tensorflow、PyTorch等深度学习开发框架。
曾获“2019年全国大学生数学建模优秀命题人奖”。参与钟南山院士指导新型冠状病毒人工智能预测系统研发项目,与钟南山院士团队共同发表学术论文《Modified SEIR and AI prediction of the epidemics trend of COVID-19 in China under public health interventions》。合著有参《人工智能:从小白到大神》、《人工智能数学基础》等著作。
前 言
第1章 Python工作环境准备 1
1.1 Anaconda环境安装 1
1.2 常用Python 交互工具 4
1.3 Jupyter Notebook简介 6
1.4 习题 9
第2章 Python入门 10
2.1 Python基础知识 10
2.2 Python基础语法 11
2.3 Python变量类型 15
2.4 Python运算符 20
2.4.1 算术运算符 20
2.4.2 比较运算符 22
2.4.3 赋值运算符 23
2.4.4 按位运算符 24
2.4.5 逻辑运算符 25
2.4.6 成员运算符 26
2.4.7 身份运算符 27
2.4.8 运算符优先级 28
2.5 Python条件与循环语句 29
2.5.1 条件语句 29
2.5.2 循环语句 31
2.6 Python函数 38
2.7 Python模块 43
2.8 Python 文件处理 46
2.9 Python异常 48
2.10 数据分析相关库 50
2.10.1 NumPy 50
2.10.2 Matplotlib 51
2.10.3 PySpark 53
2.10.4 其他常用库 54
2.11 习题 55
第3章 数据预处理 56
3.1 数据分析工作流程 56
3.2 数据预处理 58
3.2.1 数据集导入 59
3.2.2 数据概览 60
3.2.3 数据清洗 61
3.2.4 类别变量转换 66
3.2.5 数据分割 67
3.2.6 特征缩放 68
3.3 鸟瞰机器学习 71
3.4 习题 72
第4章 数据挖掘方法 74
4.1 分类分析 74
4.1.1 决策树 75
4.1.2 支持向量机 75
4.1.3 分类算法的选择 76
4.2 聚类分析 76
4.2.1 K均值算法 77
4.2.2 聚类算法和分类算法的区别 78
4.3 回归分析 78
4.3.1 变量间的关系 79
4.3.2 回归分析算法的分类和步骤 79
4.3.3 回归分析算法的选择 81
4.4 关联分析 81
4.4.1 关联规则 82
4.4.2 关联规则的序列模式 82
4.5 时间序列分析 83
4.5.1 时间序列分析方法和步骤 83
4.5.2 时间序列的三种预测模式 85
4.6 异常检测 85
4.7 推荐算法 86
4.8 习题 89
第5章 网络舆情采集与热点分析 90
5.1 网络舆情概述 90
5.1.1 大数据网络舆情背景 90
5.1.2 舆情处理过程 91
5.2 舆情数据采集 94
5.2.1 网络舆情采集工具 95
5.2.2 网络舆情数据爬取实例 100
5.3 实战:微博热点话题聚类 104
5.4 习题 110
第6章 舆情研判之情感分类 112
6.1 情感分析介绍 112
6.1.1 情感分析分类 112
6.1.2 情感分析文本预处理 114
6.1.3 实战:中文文本处理练习 115
6.2 情感分类方法 118
6.2.1 基于词典的情感分类 118
6.2.2 基于机器学习的情感分类 121
6.2.3 基于深度学习模型的情感分类 122
6.3 情感分类实战演练 131
6.3.1 淘宝家电商品评论情感分类预测 131
6.3.2 客户评论情感倾向预测 134
6.4 习题 140
第7章 用机器学习方法预测股价 142
7.1 股市数据分析价值 142
7.1.1 案例背景 142
7.1.2 案例价值 143
7.2 ARIMA模型 144
7.3 实战:基于SVM和ARIMA的股价预测 145
7.4 习题 156
第8章 用人工智能方法预测股价 157
8.1 神经网络预测方法 157
8.1.1 门控循环单元 158
8.1.2 VADER情感分析 158
8.2 实战:基于LSTM和GRU的股价预测 159
8.3 实战:股票市场新闻情感分析 165
8.4 习题 172
第9章 个人信用评分 173
9.1 个人信用评分概述 173
9.1.1 需求背景 174
9.1.2 国内外发展状况 175
9.2 信用评分的技术与方法 176
9.2.1 信用评分的简要历史 176
9.2.2 信用评分的主要模型与方法 176
9.3 信用评分卡模型 180
9.3.1 模型介绍 180
9.3.2 数据分箱 180
9.3.3 WOE值 182
9.3.4 IV值 183
9.3.5 逻辑回归算法原理 185
9.3.6 模型评价指标 186
9.3.7 建立信用评分卡 190
9.4 实战:信用评分卡 190
9.4.1 读取数据 191
9.4.2 数据预处理 191
9.4.3 探索性分析 197
9.4.4 模型分析 204
9.4.5 建立信用评分卡 208
9.5 习题 211
第10章 个人信用等级评估 213
10.1 概述 213
10.2 个人信用等级评估方法 215
10.2.1 决策树 215
10.2.2 随机森林 221
10.2.3 XGBoost简介 224
10.2.4 多重共线性 228
10.2.5 数据重采样 229
10.3 实战:个人信用等级评估 232
10.3.1 导入相应包并读取数据 232
10.3.2 查看数据情况 234
10.3.3 数据预处理及相关函数构建 241
10.3.4 模型训练 244
10.3.5 预测并生成结果 251
10.4 习题 253
第11章 企业信用评估 255
11.1 企业信用评估概述 255
11.2 企业信用评估的技术与方法 257
11.2.1 支持向量机 257
11.2.2 朴素贝叶斯 259
11.2.3