本书介绍了指数*图模型的基本概念和原理,展示了该模型的建模和使用方法以及在实践中应当如何运用该模型。指数*图模型主要用于社会网络分析。相比传统的描述性方法,指数*图模型作为一种统计方法能够更好地构建社会网络结构模型。虽然指数*图模型是为了应对网络数据中内在的非独立性,但是该模型的结果通常都以类似于逻辑回归的方式进行展示和阐释,从而使其成为检验社会系统的有用方法。近年来统计软件的开发和进步帮助社会科学家也能轻松地使用指数*图模型,但关于该模型的使用却还没有一个简明清晰的指导。因此,本书旨在填补这一空缺,带领读者通过使用R统计软件和statnet软件包,学习指数*图模型的建模和使用操作。
本书介绍了指数*图模型(ERGM)的发展历程、基本概念和原理,展示了该模型的建模和使用方法以及在实践中应当如何运用该模型,有助于读者了解和初步掌握社会网络分析方法和统计网络模型。在模型建构部分,本书从R软件和statnet软件包的获取与准备、数据获取与探索、模型建构和曲线指数族模型等几个步骤入手,详细解说了指数*图模型的建模方法。本书作为指数*图模型建构和使用方法的指导书籍,不仅填补了此前没有该模型系统的建构和使用指南的空缺,而且也具有很高的可操作性,帮助读者学习指数*图模型。
自20世纪初乔治·齐美尔(GeorgSimmel)首次论述社会网络相关问题以来(Simmel&Wolff,1950),社会科学家对于个体之间、组织之间以及其他实体之间相互关联的网络问题一直保持高度的关注(参见例如Fienberg,2012)。20世纪30年代,心理医生雅各布·莫雷诺(JacobMoreno,1934)的工作为社会网络研究奠定了基础,并将此领域命名为社会计量学(sociometry)。在莫雷诺的诸多重要成果中,核心成果便是发明了社群图(sociogram)方法,通过将个体图形化表示为节点,个体之间联系图形化表示为连线的形式,社群图方法就能够用来解释社会结构问题。
在社会网络分析发展的历程中,社群图方法被证明是十分重要的,原因之一是社群图方法将图论的基础理论引入到了社会网络分析中来。图论是一个专门处理由节点(点)以及相连的边(连线)所组成的数学分支,其中,网络图既可以是有向的,即网络中的边通常由从一个节点到另一个节点的箭头所表示,从而展现节点之间潜在的非对称联系;网络图也可以是无向的,直接用线段来表示网络中的边。大多数研究社会网络的传统方法都是来源于图论的,社会科学中的定量研究方法应用系列丛书(QASS)中,有一本较早的著作,是由诺克和杨(Knoke&Yang,2008)撰写的《社会网络分析》,该书就主要是采用这种(传统)方法。
传统的网络分析方法主要是描述性的,并不采用具有统计学意义上的随机变量模型构建方法。明确提出以网络结构为中心建立概率模型的思想可以追溯到20世纪中叶,即吉尔伯特、艾多斯以及瑞尼(Gilbert,1959;Erdos&Renyi,1959)解释了网络结构中最为基础的零模型(nullmodel)。在零模型中,所有的节点对都是以同等的概率建立连线,无论是在有向网络还是无向网络中,简单图模型都是被最广泛采用的模型。
20年之后,霍兰德和莱因哈特(Holland&Leindardt,1981)引入了一种针对有向图的Gilbert-Erdos-Renyi零模型的变种。其中,关系形成(tieformation)的概率受到个体的群集性(gregariousness,个体对外与他人建立联系的属性)以及受欢迎程度(popularity,他人与该个体建立联系的属性)的影响。在此之后不久,1981年,芬博格和沃瑟曼(Fienberg&Wasserman,1981)将霍兰德和莱因哈特的p1模型改造为对数线性模型,对数线性模型是一种为统计学家和社会科学家所熟知的模型,这样一来,学者们就可以方便对模型的参数进行最大似然估计了。此外,芬博格和沃瑟曼还对p1模型进行了扩展,将网络的互惠性(reciprocity)特征纳入到模型中来,并以互惠性特征作为网络连线概率增强的机制例如,在一个朋友网络中,如果A选择B,那么,B选择A的概率就会提升。
正如詹宁·哈瑞斯(JenineHarris)在本书中所解释的,吉尔伯特等人的零模型,霍兰德和莱因哈特的p1模型,以及芬博格和沃瑟曼(1981)的扩展模型都是指数随机图模型(exponentialrandomgraphmodels,EGRMs)家族的成员。过去30年里,指数随机图模型的研究取得了长足的进展,而且已经成为了目前社会网络分析中最重要的统计工具。在这个进程中,指数随机图模型不断彰显着自己在展现社会网络结构特征分析方面的洞察力,例如对聚类或聚簇的分析。
近年来,面对大数据分析所带来的挑战与激励,计算机科学家和统计物理学家,与统计学家、社会科学家并肩作战,对社会网络分析的发展起到了直接推动作用。源于社会生活中的大型网络数据尤为庞大与复杂,如Facebook的数据,这也促使研究人员必须不断研究更为复杂的网络模型,不断改进统计软件的计算能力,以确保研究的模型能够适应大数据的环境。哈瑞斯在其书中介绍了由statnet团队所研发的最先进的网络分析软件(Handcocketal.,2003),该软件是针对R的统计计算环境而开发的(RCoreTeam,2013),是一款广泛使用的、免费且开源的统计分析平台。
本书介绍了如何建立指数随机图模型,并解释了如何在实践中使用该模型,詹宁·哈瑞斯的工作对于采用社会网络分析的社会学家而言十分重要。我希望她的这本著作将会有较广泛的读者群,同时,期待该书能够对社会科学中社会网络分析质量的提升产生实质性的影响。
约翰·福克斯(JohnFox)
詹宁·K.哈瑞斯(Jenine K. Harris),美国圣路易斯华盛顿大学布朗学院副教授,教授公共卫生和社会工作研究生课程。主要研究领域为公共卫生和社会工作。目前的研究主要采用复杂统计网络模型,以更好地理解和解释美国地方卫生部门的沟通网络联系,尤其是社交媒体联系。
序
第1章 网络分析方法的希望与挑战
第1节 历史与概念
第2节 网络术语
第2章 统计网络模型
第1节 简单随机图
第2节 ERGM的发展
第3节 本章小结
第3章 建立一个有效的指数随机图模型
第1节 软件获取与准备
第2节 数据获取
第3节 数据探索
第4节 模型构建
第5节 曲线指数族模型
第4章 面向有向网络及二元组属性的应用
第1节 针对有向网络的研究
第2节 将二元组和网络协变量作为预测变量
第5章 结论与建议
附录
参考文献
译名对照表
译后记