1886年,弗兰西斯?高尔顿(Francis Galton)发表了题为遗传身高向普通回归(Regression Towads Mediocrity in Hereditary Stature)的开创性文章,从而开启了今天我们所知的线性回归统计方法的发展历程。通过分析205对父母及928个小孩的数据,高尔顿发现相对较高或较矮的父母生养的小孩倾向于不是那么高或矮,这一特征被统计术语概括为向均值回归。
为了演示回归是如何处理此类身高数据的,我使用了一套相似但只有一个性别的数据,这应归功于高尔顿的徒弟卡尔?皮尔森(Karl Pearson)。下图标绘出了1078对父子的身高状况(单位是英寸),数据用小圈点表示,它们明显地遵循一种线性趋势,刻画出向均值(等于45英寸)回归的现象。在本图中,我拟合了一条回归直线,由实线表示,斜率估计值为0.514,由一般最小二乘估计得到(这一估计及以后其他估计的双尾检验都比常规的0.001水平显著得多,因此这里就不报告了)。不管以谁的标准来看,这一数据的表现都很不错。不过,即使是在这一表现良好的数据里面,有些案例也比其他的更异常:我们很快就可看到图中右上角及左下区的某些案例离其他围绕在直线周边的大多数案例更远。如果这些案例太过极端,我们就可以从下列标准的快速处理办法中选择一个:从分析中剔除这些案例、重新编码(如果存在编码错误的话),以及在分析中纳入更多新变量。但如果没有处理这些异常(或不那么异常)案例的合理可用的解决办法,数据分析者该怎么办呢?这正是稳健及耐抗性回归方法(robust and resistant regression method)派上用场的地方。
为了展示一下稳健回归,我对上述数据拟合了另外两条直线(使用的是R软件里的MASS数据包),虚线表示的是用MM-估计量(MM-estimator)估计得到的稳健回归线(斜率估计值=0.502),点线表示的是通过将分位残差平方最小化(minimization of quantile squared residuals)的耐抗性回归估计(估计过程中分位残差最大的案例被忽略)得到的直线(斜率=0.442)。可以看到,使用MM-估计得到的稳健回归结果,其斜率只比OLS回归的稍小。不过,耐抗性回归得到的估计结果差别更大,所给结论表现出更为严重的向均值的回归。由安德森撰写的这本著作的焦点在于有效性(validity)的稳健(而非效率 [efficiency]的稳健),它将帮助社会科学家理解这些方法,并学到稳健回归的原理及应用方法。
在社会科学中,现代稳健及耐抗性回归方法还不太为人所知。这些方法之所以被称为现代方法是因为它们通常属于密集型计算(computation intensive),这是当前很多依赖今天的高速电脑的统计方法的一个特征。作为丛书的一部分,本书,尤其是其中关于回归方法的那些章节在主要统计软件如SAS和Stata已经采用这些最新回归方法的情况下是非常及时的。本书通过一套统一的符号系统介绍了不同来源的多种稳健回归方法以及它们彼此之间的联系,这正是本书的杰出贡献之一。为了给读者们一些实际应用上的帮助,本书也讨论了不同方法的相对优势和不足。通过一本这样的书,社会科学专业的学生及研究者最终会发现这些新的回归方法和经典回归方法一样平常和易于使用。