• 沒有找到結果。

高可用性 (High Availability)运行机制为故障转移群集技术(Failover Cluster) 的其中一项,

也就是常常听到的 HA  机制 (例如 Active / Standby) 。此类型的群集技术通常用于维持服务的高 可用性并使服务随时处于高稳定的运行状态。例如将企业营运环境中的 UTM  设备搭建为 High  Availability Cluster 运行机制后,只要其中一台  UTM  设备因为不可抗拒或其他因素损坏时,另 外一台  UTM  设备便在很短时间内将在线服务完全接手过来继续服务客户及使用者,因此不论 是企业内部员工或外部互联网使用者将完全感觉不到有任何服务停止运行的情况发生过。

而谈到了高可用性便会从「服务层级协议  SLA(Service Level Agreement)」方面说起,服 务层级协议  SLA  一般指的便是服务提供者与使用者之间依服务性质、时间、质量、水平、性 能等方面共同完成协议或订定契约,而在服务可用性方面通常会采用数字  9  及百分比来表示,

依据不同的 SLA 等级通常大略可区分为 1~6 个 9。图 1­26 便是依据可用性不同等级百分比来 定制出每年、每月、每周的可允许服务中断时间(Downtime) 。

事实上 SLA 服务层级协议并非仅仅上述说明的可允许服务中断时间而已, 还有许多因素需 要考虑,例如必须要了解该服务供应商以及自身企业中所允许的「停机定义」才行。例如 A  企 业可能认为所谓的停机就是服务器故障损坏导致服务停止运行, 而 B  企业却可能认为只要在线 运行的服务中断或离线(服务器未故障损坏)就视为发生停机事件,因此实际上还要结合许多 企业营运状况后进行通盘考虑,才能避免灾难事件发生时双方在责任上扯皮的问题发生。

以企业放置营运环境服务器的数据中心(机房)为例,就有美国国家标准协会(ANSI)、

组织标准可供遵循。以定制出一套标准来进行数据中心的可用性评估为例,从数据中心空间规 划(分布区域)、电力供应、冷气空调(冷/热通道)、机房环境干湿度到网络/光纤线材等皆在评 估标准内, 如图 1­27 和图 1­28 所示。 此外还有 3 大关键性 RAS 指标, 分别是 「可靠性 (Reliability)、

可维护性(Serviceability)、可用性(Availability)」。

图片来源:MySQL 网站­High Availability and Scalability(http://goo.gl/EVfOh)

图 1­26  SLA 服务层级协议(成本、复杂性、可用性)

图片来源:TIA­942 ­ Data Center Standards Overview(http://goo.gl/33lsh)

图 1­27  数据中心分布区域规划示意图

图片来源:TIA­942 ­ Data Center Standards Overview(http://goo.gl/33lsh) 事项,例如布线标准  EIA/TIA 568、空间标准  EIA/TIA  569、接地及连接需求  EIA/TIA  607、布线标示管理标 准  EIA/TIA  606  等。接上例继续说明,如果所采购的 机柜没有「整线/理线」机制,那么久而久之便会产生 线材瀑布的壮观情况。

此外网络线材也不应该自行  DIY(您真的能确认

图片来源:Great Lakes Case and Cabinet –  Solutions ­ Cooling(http://goo.gl/CCLbK)

图 1­29  烟囱式机柜冷热空气示意图

络交换机是大牌,但是所使用的网络线材却是令人啼笑皆非的情况,如图 1­31 所示,所以搭建 时就应该要考量到整体进行结构化布线(并非只是单纯的整线),不但可以有效提升系统的可靠 度、 日后维护弹性、 管理方便性等, 对于机房的制冷降温能力也同样有帮助, 如图 1­32 和图 1­33  所示。

图片来源:42U.com 网站  ­ Hot Aisle Containment(http://goo.gl/8GHrH)

图 1­30  烟囱式机柜冷热通道示意图

图 1­31  自行  DIY  制作的网络线材传输效率令人担心

近年来国内各大 ISP 如中国电信、中国联通、中国移动所打造的数据中心(绿色云机房) , 便是纷纷采用 TIA­942  或 UPTIME Institute  评估数据中心可靠性标准进行搭建 , 也就是通过 「平 均故障间隔时间  MTBF(Mean Time Between Failures)」及「平均修复时间  MTTR(Mean Time  to  Repair)」,并且配合  3 大关键性  RAS  指标所规划出四种不同等级(Tier  1~Tier  4)的可用 性评估标准进行搭建。表 1­2 所示为 Tier 1~Tier 4 的可用性及中断时间。

图 1­34 和图 1­35 为数据中心夏季和冬季时的温湿度建议值图表。

表 1­2 

可用性等级 可用性%  中断时间(年) 

Tier 1 ­ Basic  99.671%  28.8 小时 

Tier 2 ­ Redundant Components  99.741%  22.7 小时  Tier 3 ­ Concurrently Maintainable  99.982%  1.6 小时  Tier 4 ­ Fault Tolerant  99.995%  26.3 分钟

图片来源:统振游戏服务器机房­结构化布线 图片来源:统振游戏服务器机房­结构化布线

图 1­32  采用结构化布线后管理方便、 图 1­33  采用结构化布线后管理方便、

整齐美观、传输效率高 整齐美观、传输效率高

图片来源:UPTIME Institute­Achieving 99% Free Cooling and Tier 3  Certification in a Modular Enterprise Data Center(http://goo.gl/PzMzK)

图 1­34  数据中心对于各种季节时温湿度也应进行相对调整(夏天时温湿度建议值)

场上最优秀的云机房服务供应商之一的 Amazon 也偶尔会发生严重当机事件。 举例来说, Amazon  EC2(Elastic Compute Cloud)云服务对于该服务使用者号称具备「99.95%(年)」的可用性(也 就是一年当中的中断时间仅有 4.38 小时) ,如图 1­36 所示。

图片来源:UPTIME Institute­Achieving 99% Free Cooling and Tier 3  Certification in a Modular Enterprise Data Center(http://goo.gl/PzMzK)

图 1­35  数据中心对于各种季节时温湿度也应进行相对调整(冬天时温湿度建议值)

图片来源:Amazon 网站­Amazon EC2 Service Level Agreement(http://goo.gl/SuKq)

图 1­36  Amazon EC2 网站  SLA 内容中说明提供  99.95%的可用性

但是 Amazon EC2(Elastic Compute Cloud)服务于 2011 年 4 月 21  日时就发生过因为维护 人员操作上的人为疏失(弄错一项网络设置)加上过度自动化机制的盲点所产生的连锁效应,

导致整个 Amazon EC2、Amazon RDS、AWS Elastic Beanstalk 等相关服务中断了足足「3 天」才 完全复原,因此连带影响到存放于该机房中运行的上千个网站停止服务,如图 1­37 所示。

图片来源:Amazon 网站  ­ Summary of the Amazon EC2 and Amazon  RDS Service Disruption in the US East Region(http://goo.gl/FhgCJ)

图 1­37  Amazon EC2 服务当机事件处理经过及道歉声明

在 2012 年 12 月 24  日平安夜又因为 Amazon ELB(Elastic  Load  Balancing)服务资料被误 删,造成专门提供串流影片的 Netflix 服务中断了「20 小时」才恢复正常,其他网站则因为此次 的资料误删事件而出现严重性能不佳的情形,如图 1­38 所示。

图片来源:Amazon 网站  ­ Summary of the December 24, 2012 Amazon  ELB Service Event in the US East Region(http://goo.gl/PlM8X)

图 1­38  Amazon ELB 服务当机事件处理经过及道歉声明

所以对于企业永久经营服务不中断的理念来说, 除了对于服务供应商所提供的 SLA 服务层 级协议及相关罚则之外,对于企业服务的异地备份也应该考虑进去,以便发生相关灾难事件时 得以在最短时间内应变。

相關文件