回归分析是研究变量之间相互关系的一种统计推断方法,它在社会、经济、工程、医药卫生、工农业、气象水文等领域有着广泛的应用。《应用回归分析》是高等院校"应用回归分析"课程的教材,结合实际案例和统计软件较全面系统地介绍应用回归分析的基本理论、方法及其应用。《应用回归分析》以最小二乘估计、极大似然估计、一元线性模型、多元线性模型、变量选择以及缺失数据分析为主线,介绍数据建模过程及其预测。《应用回归分析》力求通俗易懂和实用性原则,注重理论与实际应用相结合、尽可能多地引入应用回归分析的最新进展和发展动态。每章均配有适量的习题和计算机作业,可供教师和学生选用。
更多科学出版社服务,请扫码获取。
随着计算机技术的快速发展与统计软件的开发使用,统计学在各行各业的应用越来越广泛。在这些应用中,如何用统计的理论和方法对给定的数据建立一个与之相符的回归模型呢?这是数据分析人员极为关心的一个重要问题。为了回答这个问题,本书首先从数据和变量的概念人手,深入浅出地介绍建立回归模型的一般步骤,一元线性回归模型与多元线性回归模型的参数估计理论和方法以及自变量选择,影响点和异常点的识别及处理,异方差性诊断和自相关性问题及处理、多重共线性问题及处理,多元线性回归模型的有偏估计,非线性回归模型和含定性变量的回归模型的参数估计理论、方法及算法,以及广义线性回归模型和缺失数据模型的统计分析等。这些内容为数据分析人员提供了一个完整的数据处理过程以及建立统计回归模型的技巧和方法。
尽管国内已有一些介绍回归分析的专著和教材,但他们大都用常见的统计软件,如SPSS、EXccl、Matlab等来介绍其回归分析的理论和方法。由于R软件不仅免费使用,而且它还拥有世界各地统计学家贡献的大量最新软件包且这些软件包的代码都是公开的,因此,R软件备受各国统计学家的广泛关注。目前国内也有一些基于R软件来介绍数据分析的教材,但没有系统地介绍回归分析的理论和方法。而本书所有的分析都是通过R软件来实现的,这就大大地增加了本书的实用性,这也是本书的一大特色。
为使学生了解回归分析的最新发展和适应新时期下社会对统计学发展的新需要,本书增加了一些国内其他回归分析教材中没有的,但是新近发展的且学生不难理解并富有实用价值的内容,如缺失数据模型的自变量选择、参数估计及其应用、广义线性回归模型及其参数估计和应用等。这些内容在社会学、经济学、教育学、心理学和抽样调查等领域有着广泛的应用。
本书收集、编写大量的实际例子,所用的数据例子都可以在《中国统计年鉴》网站上找到,并且包括最新的数据,如20u年的数据等,每一数据例子都配有相应的R程序。这些例子还反映了回归分析方法应用的很多方面的问题。同时,本书各章还附有习题。这对培养学生的动手能力和应用所学知识解决实际问题的能力都是非常有益的。
本书力求理论结合实际例子讲授回归分析方法的直观意义、来龙去脉、什么问题用什么方法解决以及证明的思路。有的证明放在本书习题中,请学生参阅有关书目或自行完成。
本书除了作为统计学专业本科生的教学用书,还可作为应用统计硕士的教学用书,也可作为从事统计理论研究和实际应用的统计工作者、教师和学生的教学参考书。此外,本书还可作为从事社会学、教育学、心理学、经济学、金融学、人口学、生物医学以及临床研究等领域的理论研究者和实际应用者的参考书。
感谢科学出版社成都有限责任公司郝玉龙编辑。
由于编写时间紧且编者水平有限,书中难免有不足之处,敬请读者和同行批评指正。
唐年胜 李会琼
2013年9月17日于昆明
1.4 建立回归模型的步骤
一般来说,对一个实际问题建立回归模型,需要考虑下面六个步骤。
第一步:根据研究目的,设置指标变量
回归模型主要是用来揭示事物间相关变量的数量关系。首先要根据所研究的问题设置因变量y,然后再选取与y有统计关系的一些变量作为自变量。
通常情况下,我们希望因变量与自变量之间具有因果关系。尤其是在研究具体实际问题时,我们必须根据实际问题的研究目的,确定实际问题中各因素之间的因果关系。
对于一个具体的问题,当研究目的确定后,被解释变量容易确定,被解释变量一般直接表达、刻画研究目的。另外,不要认为一个回归模型所涉及的解释变量越多越好。一个经济模型,如果把一些主要变量漏掉肯定会影响模型的应用效果,但如果引入的变量太多,可能会选择一些与问题无关的变量,还可能由于一些变量的相关性很强,它们所反映的信息有严重的重叠,这就有可能出现共线性问题。当变量太多时,计算工作量太大,计算误差就大,估计的模型参数精度自然不高。
总之,回归变量的确定是一个非常重要的问题,是建立回归模型最基本的工作。这个工作一般一次并不能完全确定,通常要反复比较,最终选出最适合的一些变量。
第二步:收集、整理统计数据
回归模型的建立是基于回归变量的样本统计数据。当确定好回归模型的变量之后,就要对这些变量进行收集、整理和统计数据。数据的收集是建立回归模型的重要环节,数据质量如何,对回归模型有至关重要的影响。
常用的样本数据分为时间序列数据和横截面数据。
时间序列数据,就是按时间顺序排列的统计数据。如最近10年的CPI、PPI统计数据。时间序列数据容易产生模型中随机误差项的序列相关,这是因为许多经济变量的前后期之间总是有关系的。如在建立需求模型时,人们的消费习惯、商品短缺程度等具有一定的延续性,它们对相当一段时间的需求量有影响,这样就产生随机误差项的序列相关。对于具有随机误差项序列相关的情况,最常用的处理方法是差分法,我们将在后面章节中详细介绍。
横截面数据,即为在同一时间截面上的统计数据。如同一年份全国35个大中城市的物价指数等都是横截面数据。当用截面数据作样本时、容易产生异方差性。这是因为一个回归模型往往涉及许多解释变量,如果其中某一因素或一些因素随着解释变量观测值的变化而对被解释变量产生不同影响,就产生异方差性。对于具有异方差性的建模问题,数据整理就要注意消除异方差性,这常与模型参数估计方法结合起来考虑,
不论是时间序列数据还是横截面数据的收集,样本容量的多少一般要与设置的解释变量数目相配套。通常为了使模型的参数估计更有效,要求样本容量n大于解释变量的个数p。样本容量的个数小于解释变量数目时:普通的最小二乘法失效。
……