本书主要介绍了概率基础、统计的基本概念、描述性统计、估计、假设检验、回归与分类等内容,同时介绍了决策树、神经网络和随机森林等组合方法以及如何用R软件来实现相应的计算目标。本书着重直观讨论,尽量少用公式,避免数学推导,强调统计学的基本内容及应用,使读者能够完整、准确地理解统计学的概念,学会利用统计软件进行数据分析。本书主要是为非统计学专业的学生和读者编写,读者不需要任何概率统计基础知识。
统计学是一门收集、整理和分析数据的科学和艺术。这里的“数据”通指“信息的载体”,涵盖了大千世界中的文本、图像、视频、时空数据、基因数据等。统计学是一个独立的学科,在历史上曾隶属于数学,但统计学与数学有着本质的区别,因此统计学教育有其自身的特点和要求,这些特点表现为:(1)统计学研究的是随机现象,而数学研究的是确定性的规律;(2)统计学是一门应用性很强的学科,许多概念和原理来自于实际的需要,不是数理逻辑的产物;(3)数据在统计学中扮演了重要的角色。目前,统计学已被列为一级学科。
在过去的30年中,随着生命科学、信息科学、物质科学、资源环境、认知科学、工程技术、经济金融和人文科学等众多学科的发展,产生了许多新的统计学分支,如风险管理、数据挖掘、基因芯片分析等。此外,计算机及其有关软件在统计教育和应用中扮演了越来越重要的角色,它们提供了越来越多的图形表达和分析的方法,使得许多原来教科书中重要的内容,现在已变得无足轻重。统计教育必须要改革才能适应高速发展的形势。
大学的统计教育可分为两大类,一类是非统计学专业的课程,另一类是统计学专业的教学设计。非统计学专业的学生学习统计的目的是为了应用,在大学阶段,课程不多,主要是学习基础的统计概念和方法,学会使用统计软件,培养其解决实际问题的能力。统计学专业的课程设置十分重要,应向国际靠拢,对教师队伍的要求也较高。虽然这两类学生的教育有很多共同点,但在课程设置中必须加以区分。
我国的统计教育在过去受苏联的影响很深,把统计学作为数学的一个分支,在内容上偏理论,少应用,过于强调概率论在统计中的作用。统计学是一门应用性很强的学科,应从实际问题、从数据出发,通过统计的工具来揭示数据内部的规律。用“建模”的思路来教统计,使学生能更加容易理解统计的概念和方法,知道如何将实际问题抽象为统计模型,反过来又指导实践。对非统计学专业的学生,要强调统计的应用。学生要能熟练地使用至少一个统计软件包。对于统计学专业的学生,要培养学生对实际问题的建模能力。有些实际问题可直接应用现有的统计方法来解决,如问卷调查的统计分析。
第一章 引言
1.1 什么是科学方法?
1.2 什么是统计学?
1.3 统计学习需要的基础知识和技能
1.4 习题
第二章 数据和变量
2.1 变量
2.2 数据
2.3 总体、样本和抽样
2.3 1几个基本概念
2.3.2 抽样调查方法
2.4 习题
第三章 数据的展示和描述方法
3.1 制表方法
3.2 统计图
3.2.1 条形图
3.2.2 饼图
3.2.3 直方图
3.2.4 盒形图
3.2.5 茎叶图
3.2.6 散点图
3.2.7 其他的图描述法
3.3 用少量汇总数字的描述方法
3.3.1 关于数据位置的汇总统计量
3.3.2 关于数据尺度的汇总统计量
3.3.3 标准得分、标准化和离群点
3.4 习题
第四章 变量的分布
4.1 概率和概率分布
4.2 概率运算回顾
4.3 离散型随机变量的分布
4.3.1 二项分布
4.3.2 多项分布
4.3.3 超几何分布
4.3.4 Poisson分布
4.4 连续型随机变量的分布
4.4.1 均匀分布
4.4.2 正态分布
4.4.3 总体分位数和尾概率
4.5 简单概率计算例子
4.6 用小概率事件进行判断
4.7 习题
第五章 抽样分布
5.1 样本函数的分布
5.1.1 样本均值的分布
5.1.2 样本均值的性质和中心极限定理
5.1.3 样本比例的抽样分布
5.2 常用的抽样分布
5.2.1 χ2分布
5.2.2 t分布
5.2.3 F分布
5.3 非正态数据的正态化变换
5.4 统计量的一些常用函数
5.5 习题
第六章 简单统计推断:对总体参数的估计
6.1 点估计
6.2 区问估计
6.2.1 正态分布总体均值μ的区间估计
6.2.2 两个独立正态分布总体均值差μ1-μ2的区间估计
6.2.3 配对正态分布总体均值差μD=μ1一μ2的区间估计
6.2.4 总体比例(BeTnoulli试验成功概率)p的区间估计
6.2.5 如何概算调查所需的样本量
6.2.6 总体比例(Bernoulli试验成功概率)之差p1一p2的区间估计
6.3 习题
第七章 简单统计推断:总体参数的假设检验
7.1 假设检验的过程和逻辑
7.2 正态总体均值的检验
7.2.1 对一个正态总体均值μ的t检验
7.2.2 对两个正态总体均值之差μ1-μ2的t检验
7.2.3 配对正态分布总体均值差μD=μl-μ2的t检验
7.3 总体比例(Bernoulli试验成功概率)p的检验
7.3.1 一个总体比例p的检验
7.3.2 两个总体比例之差m-p2的检验
7.4 关于中位数的非参数检验
7.4.1 非参数检验简介
7.4.2 单样本的关于总体中位数(或总体α分位数)的符号检验
7.4.3 单样本的关于对称总体中位数(总体均值)的Wilcoxon符号秩检验
7.4.4 比较两独立样本总体中位数的Wilcoxon秩和检验
7.5 习题
第八章 变量之间的关系
8.1 定性变量之间的相关
8.1.1 列联表
8.1 X2检验
8.2 定量变量之间的相关
8.2.1 相关关系的图形描述
8.2.2 相关关系的数字刻画:Pearson线性相关系数
8.2.3 相关关系的数字刻画:Kendau.T相关系数
8.3 习题
第九章 经典回归和分类
9.1 回归和分类概述
9.1.1 “黑匣子”说法
9.1.2 试图破解“黑匣子”的实践
9.1.3 回归和分类的区别
9.2 线性回归模型
9.2.1 因变量和自变量均为数量型变量的情形
9.2.2 因变量是数量型变量而自变量包含分类变量的情形
9.2.3 对于回归利用交叉验证的例子
9.3 Loglstic回归
9.4 判别分析
9.5 习题
第十章 现代回归和分类:数据挖掘方法
10.1 决策树:分类树和回归树
10.1.1 分类树
10.1.2 回归树
10.2 组合方法:adaboost,bagging和随机森林
10.2.1 为什么组合?
10.2.2 Boosting
10.2.3 Bagging
10.2.4 随机森林
10.3 对于例9.6和例9.3的交叉验证结果
10.4 习题
附录:熟练使用R软件
参考文献
《统计学:从概念到数据分析(第二版)》:
我们天天都在使用“科学”这个词语,但是,有多少人认真考虑过科学的真正含义呢?
人们对世界的认识来源于他们所获得的信息(或数据)。而在总结这些信息时人们头脑中会形成一些模型(也称假说或理论)。这些模型会指导人们做进一步的探索,直到遇到这些模型无法解释的现象。这时,人们会改进这些模型,或者干脆建立新的模型使得新模型不仅可以解释旧模型可以解释的现象,而且还能解释旧模型无法解释的现象。这就是科学的方法,而只有用科学方法进行的探索才叫科学。下面举两个人们熟知的例子。
·天文学:公元2世纪,托勒玫致力于传播宇宙地心说,这一思想影响了1300多年,地心说可以对当时条件下的一些天文观测提供解释。1543年,在哥白尼的《天体运行论》-书中阐明了日心说,把托勒玫的理论大大改进了。随后,开普勒发现行星运动原理,伽利略开始将望远镜用于天文观测,牛顿又建立了运动和万有引力定律。在新的观测的基础上,赖特在1750年提出宇宙是由众多星系构成的看法。18世纪末,赫歇尔首先用望远镜进行了巡天观测,奠定了现代恒星天文学的基础。
·从牛顿到爱因斯坦:牛顿发现了运动定律和万有引力定律,这些定律在当时可以解释相当一部分观测的现象。然而,后来在亚原子尺度上,以及在行星观测中出现了一些用牛顿的惯性定律或万有引力定律无法解释的现象,这就导致了爱因斯坦狭义和广义相对论的产生,相对论是建立在光速在真空中不变的假定前提之下的。如果人们观测到光速在真空中可变,则又会对相对论进行修正。
从上面的例子可以看出科学的一些特点,科学可以定义为对关于宇宙的所有方面的知识的认真的、系统的、合乎逻辑的研究。这些知识则是由考察最好的可利用的证据得到的,并且这些知识总是应该在发现更有力的证据时随时予以纠正和改进,科学也可以定义为任何知识系统,这些知识涉及物理世界及其可经受无偏见观测和系统实验的现象。
科学方法是目前已知的筛去谎言和错觉的最好方式,对其步骤可做如下大致的描述:
(1)观测宇宙的某些方面。
(2)发明或提出可以解释这些观测的假说或假设,它必须和观测结果相容。
(3)利用该假说进行预测。
(4)用实验来检验这些预测,或者做进一步观测并根据结果修正假说。
(5)重复第(3),(4)步直到在理论和实验或观测中没有发现矛盾为止。
……