本书首先介绍了R语言的相关知识,包括R语言基础、R语言可视化技术。随后本书详细介绍了数据挖掘与数据分析中重要的理论方法与基础知识,包括线性回归、逻辑回归、决策树与回归树、随机森林、贝叶斯分类器等内容,并展示了如何将R语言用到这些方法的具体场景中。本书通过结合数据挖掘技术的理论知识与R语言的实战应用,帮助读者更好地运用R语言解决数据挖掘中的实际问题。
本书适合作为高等院校管理科学与工程类专业、工商管理类专业、工程管理类专业硕士研究生的数据挖掘与商务数据分析课程的教材,还适合作为相关专业博士研究生的参考资料。
数据挖掘与数据分析:基于R语言,经管专业相关学生课程
在人类社会发展的进程中,数据一直承载着信息记录的重要作用。从人类文明诞生伊始的结绳记事,到当今信息技术的数学建模,数据见证了人类历史的进步与变迁。近年来,随着大数据时代的来临,数据生成往往具有速度快、数据量大的特点,数据结构多样复杂,其中蕴含的应用价值非常高。
为了应对日趋复杂的海量数据,数据分析技术得到了快速发展。传统的数据分析技术侧重于对统计学方法的应用,如今,侧重于机器学习的数据挖掘技术正不断走向成熟。数据挖掘技术可以从大量模糊的现实数据中挖掘出潜在的信息,借助数据库技术、机器学习、数学算法、可视化技术等手段揭示事物之间的关联性和潜在规律,使数据转变成信息,信息进一步升华为知识。可以预见的是,在未来的农业、工业、教育、医疗等多个领域的推动下,数据分析技术将发展到一个全新的高度,也必将扮演更加重要的角色。
我们在西北工业大学为硕士研究生(含学术学位和专业学位)开设了数据挖掘与商务数据分析课程,该课程目前已设立5年之久,学习该课程的学生累计超过550人。课程中制作的讲义课件和相关案例是本书理论部分的基础,实验课上的数据集和上机内容则构成了本书实践部分的主体。随着课程内容的迭代与积累,本书包含的内容也在不断丰富完善。本书定稿后已在西北工业大学作为教材试用。
课程开设之初,我们查阅过许多数据挖掘相关的图书,遗憾的是,它们包含的内容并不足以匹配我们课程的教学目标。为了让学生熟练掌握数据挖掘技术的理论方法与基础知识,并能够将其付诸实践,我们在本书的前两章中详细介绍了R语言基础,同时结合实例给出了具体操作过程。我们希望读者能够在不借助任何其他课程知识的情况下,即可对商务应用场景中的数据进行描述性数据分析、可视化和高级数据模型构建。
概述
总的来说,本书将数据分析和挖掘基本原理、数据分析案例、模型构建、模型代码实现和结果分析相结合,帮助读者更好地掌握R语言在实际场景中的应用,根据具体业务需求制定智能决策方案。
本书总共有12章,前10章包含10个主题:R语言基础、R语言可视化技术、线性回归、逻辑回归、决策树与回归树、随机森林、贝叶斯分类器、层次聚类、K均值聚类、关联规则分析。本书的最后两章介绍了两个具体的案例分析。
为了加深读者对每部分知识的理解,提高读者的实践能力,我们在每章结尾处都设置了本章小结和课后习题。
本书提供的教辅材料包括:课程幻灯片、实验数据集、源代码、课后习题及答案。
本书的编写过程获得了多位老师的大力相助。王阳老师主要负责设计本书整体框架,并撰写了本书的大部分内容。胡文杰老师主要负责编写代码,对代码运行结果进行分析,设计例题以及校对文字。梁韵基老师主要负责设计案例和校对文字。冯建广老师撰写了本书的线性回归与逻辑回归部分,周珍与张新卫老师共同编写了决策树与回归树、随机森林两个部分的内容,陈志老师主要设计了两个具体的案例分析。
致谢
本书在编写的过程中,许多人为其付出了心血。在此感谢西北工业大学信息与知识管理团队的学生,王秋实、范琼瑜、周思佳、闫勇为本书实验部分的代码编写与测试投入了大量精力,王俊鹏、翟寒、吴松给本书提出了许多重要的建议及反馈。我们同时要感谢西北工业大学选修数据挖掘与商务数据分析课程的同学,他们作为本书的第一批使用者,提出了宝贵的修改意见。
我们还要感谢西北工业大学的其他老师,他们为本书提供了富有建设性的反馈,特别感谢陈志老师为本书的实验部分提供了丰富的计算资源,搭建了良好的测试环境。
王阳,教授、博导。主要研究领域为智能决策与优化、组合优化、医疗运作管理等。西北工业大学计算机学院获得学士、硕士学位,2013年在法国昂热大学获得博士学位,并在法国昂热大学和加拿大西门菲莎大学从事了博士后研究工作,2014年进入西北工业大学管理学院工作。主持国家自然科学基金项目2项,省部级科研项目4项,荣获陕西省哲学社会科学优秀成果一等奖。在国内外学术期刊上共发表论文20余篇,其中包括经济管理领域顶级UTD-24期刊Informs Journal On Computing (IJOC) 2篇。
第1章 R语言基础
第2章 R语言可视化技术
第3章 线性回归
第4章 逻辑回归
第5章 决策树与回归树
第6章 随机森林
第7章 贝叶斯分类器
第8章 层次聚类
第9章 K均值聚类
第10章 关联规则分析
第11章 案例分析之随机森林
第12章 案例分析之K均值聚类