《数据科学导论(面向新工科专业建设计算机系列教材)》主要介绍数据科学的通识入门知识,可以作为高等院校数据科学与大数据专业的专业基础课程教材。该书以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,为数据科学与大数据及相关专业的学生深入学习数据科学和大数据技术奠定基础。该书系统讲授数据科学的基本概念和知识体系、数据分析的基本流程和方法(包括数据预处理、回归、聚类、分类等智能分析技术)、大数据分析的基本T具,并以Python语言为例,通过大量实例和练习讲授初级的数据分析技术。该书通过系统全面的理论介绍与丰富翔实的程序实践相结合,帮助数据科学与大数据及相关专业的学生树立大数据意识,学习数据科学的知识体系,掌握基本的数据处理方法。
《数据科学导论(面向新工科专业建设计算机系列教材)》适合作为数据科学与大数据及相关专业学生的教材,也可作为大数据开发工程师的参考书。
《数据科学导论(面向新工科专业建设计算机系列教材)》特色:
内容全面,重点突出。不但涵盖数据科学的主要内容,而且从数据挖掘的视角着重强调了数据分析的基本方法。理论系统,实践丰富。系统地介绍了数据科学紧密相关的基础理论和方法,并且配以丰富的实例进行讲解。模块设计,灵活组合。《数据科学导论(面向新工科专业建设计算机系列教材)》分为基础理论、分析方法、高级主题3个模块,内容由浅入深。
深入浅出,可读性强。在讲解数据科学相关的内容和基本的概念时,配以实例介绍本质含义,力争概念通俗易懂,便于上手。
近些年,各行各业聚集的“大数据”不仅对信息处理技术提出了挑战,而且深刻影响社会经济的各个方面。大数据时代的到来也催生一门新的学科——数据科学。数据科学是基于计算机科学、统计学、数学等学科的一门新兴的交叉学科,主要研究内容包括数据科学基础理论、数据预处理、数据计算和数据管理。作为一门新兴学科,很多学校开设了相关专业,也急需讲授其核心理论体系和应用实践的教材。本书顺应数据科学兴起的潮流,为数据科学与大数据及相关专业的学生,提供一本入门和导论性质的教材。
作者深入调研了现有的大数据教材和资料,结合十余年数据挖掘和机器学习等领域的科研实践以及“计算机导论”等计算机专业基础课程的教学实践经验,以“建立知识体系、掌握基本原理、学会初级实践、了解前沿技术”为原则,精心设计编写了本书。本书具有如下特色。
(1)内容全面,重点突出。本书涵盖了数据科学的主要内容,包括基础理论、数学基础、分析方法、应用前沿和处理技术。同时,作者也从数据挖掘的视角着重强调了数据分析的基本方法和技能。
(□)理论系统,实践丰富。本书比较系统地介绍了与数据科学紧密相关的基本理论和方法,并且配以丰富的实例进行讲解。作者以Python语言为例,配以大量实例详细讲解了数据分析的基本方法。
(3)模块设计,灵活组合。本书划分为3个模块:基础理论(□□~□章)、分析方法(第3~6章)、高级主题(第7~8章),3个模块相对独立,模块内部也是由浅入深。选择合适章节内容和讲授深度,可以支撑□~6学分的“数据科学导论”课程设置。
(4)深入浅出,可读性强。本书尽量介绍数据科学□相关的内容和□基本的概念,并配以实例介绍本质含义;此外,还介绍了大量要深入学□□扩展阅读材料。本书面向具有基础的计算机相关知识的学生和科技工作者,力争概念通俗易懂,方法便于上手。
全书内容分为3部分,共8章。□□部分是数据科学的基本理论和数学基础,由□□~□章组成。
□□章是本书统领式的一章。主要介绍数据科学的产生背景、基础知识、基本理论以及数据科学家和数据科学的实践案例。通过串联数据和大数据的概念,阐述了人类社会的数据化进程;通过介绍数据科学的理论基础和应用实践引导读者在学习时应注重理论联系实际,学以致用。
第□章介绍数据科学研究中广泛使用的数学工具。主要介绍数据科学中需要用到的基础数学知识,包括线性代数、概率统计、优化理论和图论基础,并结合实例探讨它们的应用。
本书第二部分介绍数据科学中常用的数据分析方法,由第3~6章组成。
第3章介绍数据科学研究中主流的编程语言。全书的案例也都统一以Python语言讲解。本章涵盖Python的基本用法以及数据科学处理中重要库的使用。
第4章介绍数据科学处理中基本的数据预处理方法。本章是整个数据处理中的前期核心步骤,包括数据清洗、数据集成、数据归约、数据变换等技术,□后辅以一个实践案例具体阐述预处理的各个步骤。
第5章介绍数据科学研究中的基本机器学习模型。本章介绍机器学□□基本概念及主流的机器学习库,同时讲解回归、分类、神经网络等监督学习方法及聚类等无监督学习模型,每个模型均配有实例及代码演示。
第6章以实战案例系统总结前面章节的数据处理技术。首先介绍数据分析流程,继而给出4个具体的案例,包括Titanic生存预测、时间序列预测等,每个案例从问题分析开始,阐述数据预处理、机器学习模型使用、结果分析等完整流程。
本书第三部分介绍数据科学的应用前沿和处理技术,由第7~8章组成。
第7章围绕非结构化数据,分别对文本数据、图像□□数据、图结构数据的分析与应用方法展开介绍。此外,还简要介绍了数据可视化分析技术、应用场景、常用的可视化分析工具。
第8章介绍大数据处理的主流工具。主要介绍了云计算的相关概念和特点、核心技术虚拟化和多个商用的云计算平台;讨论了大数据处理工具Hadoop与Spark这两个框架的基本概念、核心算法以及生态环境。本章还提供了一个完整的搭建并使用Hadoop集群进行数据处理的应用案例。
本书可以作为数据科学与大数据及相关专业学生的数据科学和大数据分析等课程的入门教程,也可以作为科技工作者学□□数据分析的参考材料。作为大学教材使用,可以有短学时(□~3学分)和长学时(4~6学分)两种教学计划。针对短学时教学计划,可以选择□□、3~6章讲授,其他章节选讲;针对长学时教学计划,可以讲授全部内容,并且增加上机实践环节。本书还提供了丰富的教学资料供教师教学参考和学生学习使用,包括教学幻灯片和所有实例源代码等资料。这些资料可以从www.shichuan.org下载使用。
石川负责全书框架设计和统稿,并编写了□□章;王啸负责编写第3~6章;胡琳梅负责编写第□、7、8章;王柏对全书进行了校对。本书编写过程中得到了北京邮电大学计算机学院数据科学与服务中心的老师们的大力支持和帮助;也得到了许多研究生的支持,他们收集并整理了大量的资料。没有他们的帮助,本书很难在约定的时间内完成。在此,感谢他们在本书的编写过程中做出的巨大贡献。
石川,北京邮电大学教授、博士生导师。长期从事计算机专业基础课程教学工作,参与多项教改项目。主要研究方向为数据挖掘和机器学习,发表高水平学术论文100余篇,中英文专著3部,成果应用于IT企业。研究成果获得省部级奖励3项,本人获得北京市高等学校青年英才和师德先锋等称号。
王啸,北京邮电大学讲师、硕士生导师。天津大学博士,圣路易斯华盛顿大学联培博士,清华大学博士后,主要研究方向为数据挖掘与机器学习,曾主持国家自然科学基金项目,发表高水平论文50余篇,获得微软亚洲研究院“铸星计划”支持。
胡琳梅,北京邮电大学副教授,硕士生导师。清华大学博士,北京市优秀毕业生。主要研究方向为自然语言处理与知识图谱,获□019年微软亚洲研究院“铸星计划”支持。
第一章 数据科学概论
1.1 数据和大数据
1.1.1 数据
1.1.2数据化进程
1.1.3 大数据
1.□ 数据科学理论基础
1.□.1 数据科学发展历程
1.□.□ 数据科学的概念
1.□.3 数据科学的主要内容
1.3 数据科学应用实践
1.3.1 数据科学家
1.3.□ 数据科学工作流程
1.3.3 数据科学实践案例
1.4 小结
1.4.1 本章总结
1.4.□ 扩展阅读材料
1.5 习题
1.6 参考资料
第□章 数学基础
□.1 线性代数
□.1.1 向量
□.1.□ 矩阵
□.1.3 矩阵导数
□.1.4 实例:利用SVD进行评分预测
□.□ 概率统计
□.□.1 随机事件与概率
□.□.□ 条件概率与事件独立性
□.□.3 随机变量及其数字特征
□.□.4 数理统计
□.□.5 信息论
□.□.6 实例:利用朴素贝叶斯算法进行文本分类
□.3 优化理论
□.3.1 基本概念
□.3.□ 优化问题的一般形式
□.3.3 优化方法
□.3.4 实例:SVM分类器
□.4 图论基础
□.4.1 图的定义
□.4.□ 图的概念
□.4.3 图的矩阵表示
□.4.4 拉普拉斯矩阵与谱
□.4.5 实例:谱聚类算法
□.5 小结
□.5.1 本章总结
□.5.□ 扩展阅读材料
□.6 习题
□.7 参考资料
第3章 Python语言初步
3.1 Python语言概述
3.1.1 Python语言简介
3.1.□ Python语言环境搭建
3.□ Python的基本用法
3.□.1 列表与元组
3.□.□ 字符串
3.□.3 字典
3.□.4 条件与循环语句
3.□.5 函数
3.□.6 文件
3.□.7 综合实例
3.3 重要库的使用方法与案例
3.3.1 NumPy
3.3.□ Panda□<□r>3.3.3 SciPy
3.3.4 Matplotlib
……
第4章 数据预处理
第5章 分析方法初步
第6章 数据科学实践
第7章 数据科学的重要研究领域
第8章 大数据处理技术简介