容错系统(第2版)是利用系统方法进行计算机系统容错设计的第1本教科书,这本书全面涵盖了容错硬件和软件的设计,使用容错技术来提高生产制造产量,以及网络的设计和分析。结合10多个不同计算机系统经典设计案例,分析容错技术在这些系统设计中的实现,该书内容还包括用于防范安全威胁的加密子系统的方法。本文更新的内容将有助于电气、计算机工程和计算机科学的学生和从业者学习如何设计可靠的计算系统,以及如何分析容错计算系统。
1.本书由Israel Koren和C. Mani Krishna两位教授结合他们在容错计算领域多年的教学经验和工程实践的基础上编写而成,是第一本采用系统方法介绍软硬件容错设计技术的书籍,极大弥补了近几年容错计算领域在教材更新上的不足。全书共分11章,系统全面的介绍了容错的基本概念和分析方法,软硬件容错设计技术,容错网络及VLSI电路中的缺陷容忍等内容,还给出一些实际案例分析以帮助读者理解容错技术的应用。2.书中配有大量习题,它们可以配合课堂教学,帮助读者准确理解有关概念,掌握设计方法和技巧。3.本书适合电子、计算机工程以及计算机科学领域的学生和从业人员学习如何设计与分析可靠的容错计算机系统。
前言
FaultTolerant Systems,Second Edition
本书第2版保留了第1版的结构,但在大部分章节增加了新的内容。参考文献也做了相应更新,以反映本领域最新的研究进展。
如下为我们增加的新内容。
第2章:增加了对导致硬件失效的主要物理因素的讨论。
第3章:增加了对低密度奇偶校验编码(LDPC)、层次化RAID以及闪存RAID的讨论。
第4章:增加了胖树、片上网络以及无线感知网相关的容错技术。
第5章:增加了基于Hypervisor的抗衰恢复,对软件可靠性模型的介绍增加了OstrandWeyukerBell模型。
第6章:增加了对云计算,以及千万亿次(petascale)、百亿亿次(exascale)等高性能计算场景中的检查点机制的讨论。
第7章:这是一个全新的章节,主要讨论日益显著的信息物理融合系统(CPS)中的容错相关技术。
第8章:这一章增加了一些新的案例分析,包括航空航天系统、IBM的POWER8多核处理器、Intel 至强处理器,以及Oracle和NEC的服务器。此外,增加了一些云计算的案例。
第9章:增加了对拆分方法的介绍。
致谢
我们在此感谢Zahava Koren通读本书全文后提出的宝贵建议。我们也要感谢Morgan Kaufman公司的员工为这个项目所做的努力。我们还要感谢多年来支持我们工作的资助机构,特别是第7章的内容是在美国国家科学基金会CNS-1717262项目的赞助下完成的。
伊斯雷尔·科伦(Israel Koren) 马萨诸塞大学阿默斯特分校电气和计算机工程系名誉教授。在此之前,他曾在位于海法的以色列理工学院、加州大学伯克利分校、南加州大学和加州大学圣巴巴拉分校任职。他曾在Analog Devices、AMD、Digital Equipment Corp.、IBM、Intel和National Semiconductors等多家公司担任顾问。他的研究兴趣包括容错计算、信息物理系统、计算机体系结构、算法以及安全加密系统。
C. 玛尼·克里希纳(C. Mani Krishna) 马萨诸塞大学阿默斯特分校电气和计算机工程系教授。他于1984年在密歇根大学获得电气工程博士学位,1979年在印度理工学院获得电气工程学士学位,1980年在伦斯勒理工学院获得硕士学位。Krishna博士的研究兴趣集中在信息物理系统、实时与容错计算以及分布式与网络系统。
目录
FaultTolerant Systems,Second Edition
译者序
前言
第1章 预备知识1
1.1 故障的分类1
1.2 冗余类型2
1.3 容错机制的基本评测指标4
1.3.1 常用评测指标4
1.3.2 网络系统的评测指标5
1.4 本书主要内容6
1.5 延伸阅读7
参考文献8
第2章 硬件容错技术9
2.1 硬件失效率9
2.2 失效率、可靠度和平均无故障运行时间10
2.3 硬件失效机制12
2.3.1 电迁移12
2.3.2 应力迁移13
2.3.3 负偏压温度不稳定性13
2.3.4 热载流子注入14
2.3.5 时间依赖的电介质击穿14
2.3.6 综合考虑多种失效机制15
2.4 共模失效15
2.5 典型容错结构16
2.5.1 串联与并联系统16
2.5.2 非串联/并联系统17
2.5.3 M-of-N系统19
2.5.4 表决器21
2.5.5 NMR的变体21
2.5.6 双模系统24
2.6 其他可靠性评估技术26
2.6.1 泊松过程26
2.6.2 马尔可夫模型28
2.7 处理器级容错技术30
2.7.1 看门狗处理器31
2.7.2 面向容错的同步多线程32
2.8 时序故障的容错33
2.9 拜占庭故障的容错35
2.9.1 基于消息签名的拜占庭协议38
2.10 延伸阅读39
2.11 练习题40
参考文献42
第3章 信息冗余45
3.1 编码45
3.1.1 奇偶校验码46
3.1.2 校验和51
3.1.3 M-of-N编码51
3.1.4 伯格码52
3.1.5 循环码52
3.1.6 算术编码57
3.1.7 局部软判决与硬判决60
3.2 冗余磁盘系统65
3.2.1 RAID 166
3.2.2 RAID 267
3.2.3 RAID 367
3.2.4 RAID 468
3.2.5 RAID 569
3.2.6 层次化RAID系统69
3.2.7 相关故障模型71
3.2.8 基于固态硬盘的RAID技术73
3.3 数据复制74
3.3.1 表决的非层次化方法75
3.3.2 表决的层次化方法79
3.3.3 主备方法80
3.4 基于算法的容错83
3.5 延伸阅读84
3.6 练习题85
参考文献87
第4章 容错网络90
4.1 网络弹性评测90
4.1.1 基于图论的评测指标90
4.1.2 计算机网络的评测指标91
4.2 常见网络拓扑结构及其弹性分析92
4.2.1 多级互连网络和扩展多级互连网络92
4.2.2 纵横交叉开关网络96
4.2.3 矩形网格网络和填隙网格网络98
4.2.4 超立方体网络100
4.2.5 带环超立方体网络103
4.2.6 环状网络104
4.2.7 树状网络105
4.2.8 AD HOC点对点网络107
4.3 容错路由109
4.3.1 超立方体网络容错路由110
4.3.2 网格中基于源节点的路由策略111
4.4 片上网络113
4.4.1 路由器容错114
4.4.2 连接容错116
4.4.3 发生失效后的路由选择116
4.5 无线传感器网络117
4.5.1 基础知识117
4.5.2 传感器网络的失效118
4.5.3 传感器网络中的容错118
4.6 延伸阅读120
4.7 练习题122
参考文献124
第5章 软件容错127
5.1 可接受性测试127
5.2 单版本软件容错128
5.2.1 封装器128
5.2.2 软件抗衰130
5.2.3 数据多样性133
5.2.4 软件实现的硬件容错134
5.3 N版本编程136
5.3.1 一致性比较问题136
5.3.2 版本独立性138
5.3.3 N版本编程的其他问题141
5.4 恢复块方法142
5.4.1 基本思想143
5.4.2 成功概率的计算143
5.4.3 分布式恢复块144
5.5 前置条件、后置条件和断言145
5.6 异常处理146
5.6.1 异常处理程序的要求146
5.6.2 异常和异常处理的基础知识146
5.6.3 语言支持148
5.7 软件可靠性模型148
5.7.1 JelinskiMoranda模型149
5.7.2 LittlewoodVerrall模型149
5.7.3 MusaOkumoto模型150
5.7.4 OstrandWeyukerBell故障模型151
5.7.5 模型选择和参数估计152
5.8 远程过程调用的容错技术152
5.8.1 主备容错方法152
5.8.2 马戏团方法153
5.9 延伸阅读154