141 高可用性

高可用性（High Availability）运行机制为故障转移群集技术（Failover Cluster）的其中一项，

也就是常常听到的 HA 机制（例如 Active / Standby）。此类型的群集技术通常用于维持服务的高可用性并使服务随时处于高稳定的运行状态。例如将企业营运环境中的 UTM 设备搭建为 High Availability Cluster 运行机制后，只要其中一台 UTM 设备因为不可抗拒或其他因素损坏时，另外一台 UTM 设备便在很短时间内将在线服务完全接手过来继续服务客户及使用者，因此不论是企业内部员工或外部互联网使用者将完全感觉不到有任何服务停止运行的情况发生过。

而谈到了高可用性便会从「服务层级协议 SLA（Service Level Agreement）」方面说起，服务层级协议 SLA 一般指的便是服务提供者与使用者之间依服务性质、时间、质量、水平、性能等方面共同完成协议或订定契约，而在服务可用性方面通常会采用数字 9 及百分比来表示，

依据不同的 SLA 等级通常大略可区分为 1～6 个 9。图 126 便是依据可用性不同等级百分比来定制出每年、每月、每周的可允许服务中断时间（Downtime）。

事实上 SLA 服务层级协议并非仅仅上述说明的可允许服务中断时间而已，还有许多因素需要考虑，例如必须要了解该服务供应商以及自身企业中所允许的「停机定义」才行。例如 A 企业可能认为所谓的停机就是服务器故障损坏导致服务停止运行，而 B 企业却可能认为只要在线运行的服务中断或离线（服务器未故障损坏）就视为发生停机事件，因此实际上还要结合许多企业营运状况后进行通盘考虑，才能避免灾难事件发生时双方在责任上扯皮的问题发生。

以企业放置营运环境服务器的数据中心（机房）为例，就有美国国家标准协会（ANSI）、

组织标准可供遵循。以定制出一套标准来进行数据中心的可用性评估为例，从数据中心空间规划（分布区域）、电力供应、冷气空调（冷/热通道）、机房环境干湿度到网络/光纤线材等皆在评估标准内，如图 127 和图 128 所示。此外还有 3 大关键性 RAS 指标，分别是「可靠性（Reliability）、

可维护性（Serviceability）、可用性（Availability）」。

图片来源：MySQL 网站High Availability and Scalability（http://goo.gl/EVfOh）

图 126 SLA 服务层级协议（成本、复杂性、可用性）

图片来源：TIA942 Data Center Standards Overview（http://goo.gl/33lsh）

图 127 数据中心分布区域规划示意图

图片来源：TIA942 Data Center Standards Overview（http://goo.gl/33lsh）事项，例如布线标准 EIA/TIA 568、空间标准 EIA/TIA 569、接地及连接需求 EIA/TIA 607、布线标示管理标准 EIA/TIA 606 等。接上例继续说明，如果所采购的机柜没有「整线/理线」机制，那么久而久之便会产生线材瀑布的壮观情况。

此外网络线材也不应该自行 DIY（您真的能确认

图片来源：Great Lakes Case and Cabinet – Solutions Cooling（http://goo.gl/CCLbK）

图 129 烟囱式机柜冷热空气示意图

络交换机是大牌，但是所使用的网络线材却是令人啼笑皆非的情况，如图 131 所示，所以搭建时就应该要考量到整体进行结构化布线（并非只是单纯的整线），不但可以有效提升系统的可靠度、日后维护弹性、管理方便性等，对于机房的制冷降温能力也同样有帮助，如图 132 和图 133 所示。

图片来源：42U.com 网站 Hot Aisle Containment（http://goo.gl/8GHrH）

图 130 烟囱式机柜冷热通道示意图

图 131 自行 DIY 制作的网络线材传输效率令人担心

近年来国内各大 ISP 如中国电信、中国联通、中国移动所打造的数据中心（绿色云机房），便是纷纷采用 TIA942 或 UPTIME Institute 评估数据中心可靠性标准进行搭建，也就是通过「平均故障间隔时间 MTBF（Mean Time Between Failures）」及「平均修复时间 MTTR（Mean Time to Repair）」，并且配合 3 大关键性 RAS 指标所规划出四种不同等级（Tier 1～Tier 4）的可用性评估标准进行搭建。表 12 所示为 Tier 1～Tier 4 的可用性及中断时间。

图 134 和图 135 为数据中心夏季和冬季时的温湿度建议值图表。

表 12

可用性等级可用性% 中断时间（年）

Tier 1 Basic 99.671% 28.8 小时

Tier 2 Redundant Components 99.741% 22.7 小时 Tier 3 Concurrently Maintainable 99.982% 1.6 小时 Tier 4 Fault Tolerant 99.995% 26.3 分钟

图片来源：统振游戏服务器机房结构化布线图片来源：统振游戏服务器机房结构化布线

图 132 采用结构化布线后管理方便、图 133 采用结构化布线后管理方便、

整齐美观、传输效率高整齐美观、传输效率高

图片来源：UPTIME InstituteAchieving 99% Free Cooling and Tier 3 Certification in a Modular Enterprise Data Center（http://goo.gl/PzMzK）

图 134 数据中心对于各种季节时温湿度也应进行相对调整（夏天时温湿度建议值）

场上最优秀的云机房服务供应商之一的 Amazon 也偶尔会发生严重当机事件。举例来说， Amazon EC2（Elastic Compute Cloud）云服务对于该服务使用者号称具备「99.95%（年）」的可用性（也就是一年当中的中断时间仅有 4.38 小时），如图 136 所示。

图片来源：UPTIME InstituteAchieving 99% Free Cooling and Tier 3 Certification in a Modular Enterprise Data Center（http://goo.gl/PzMzK）

图 135 数据中心对于各种季节时温湿度也应进行相对调整（冬天时温湿度建议值）

图片来源：Amazon 网站Amazon EC2 Service Level Agreement（http://goo.gl/SuKq）

图 136 Amazon EC2 网站 SLA 内容中说明提供 99.95%的可用性

但是 Amazon EC2（Elastic Compute Cloud）服务于 2011 年 4 月 21 日时就发生过因为维护人员操作上的人为疏失（弄错一项网络设置）加上过度自动化机制的盲点所产生的连锁效应，

导致整个 Amazon EC2、Amazon RDS、AWS Elastic Beanstalk 等相关服务中断了足足「3 天」才完全复原，因此连带影响到存放于该机房中运行的上千个网站停止服务，如图 137 所示。

图片来源：Amazon 网站 Summary of the Amazon EC2 and Amazon RDS Service Disruption in the US East Region（http://goo.gl/FhgCJ）

图 137 Amazon EC2 服务当机事件处理经过及道歉声明

在 2012 年 12 月 24 日平安夜又因为 Amazon ELB（Elastic Load Balancing）服务资料被误删，造成专门提供串流影片的 Netflix 服务中断了「20 小时」才恢复正常，其他网站则因为此次的资料误删事件而出现严重性能不佳的情形，如图 138 所示。

图片来源：Amazon 网站 Summary of the December 24, 2012 Amazon ELB Service Event in the US East Region（http://goo.gl/PlM8X）

图 138 Amazon ELB 服务当机事件处理经过及道歉声明

所以对于企业永久经营服务不中断的理念来说，除了对于服务供应商所提供的 SLA 服务层级协议及相关罚则之外，对于企业服务的异地备份也应该考虑进去，以便发生相关灾难事件时得以在最短时间内应变。

在文檔中疯狂Windows Server 2012 Hyper-V3.0实战虚拟化讲义 - 万水书苑-出版资源网 (頁 22-29)

1­4­1 高可用性