• 沒有找到結果。

事件监控最佳实践_云监控服务 CES_最佳实践_华为云

N/A
N/A
Protected

Academic year: 2022

Share "事件监控最佳实践_云监控服务 CES_最佳实践_华为云"

Copied!
29
0
0

加載中.... (立即查看全文)

全文

(1)

云监控服务

最佳实践

文档版本 06

发布日期 2021-06-16

(2)

版权所有 © 华为技术有限公司 2021。 保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或 特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或暗示的声 明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文 档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

华为技术有限公司

地址: 深圳市龙岗区坂田华为总部办公楼 邮编:518129

网址: https://www.huawei.com

客户服务邮箱:[email protected] 客户服务电话:4008302118

(3)

目 录

1 电商平台业务监控... 1

1.1 简介... 1

1.2 站点监控...1

1.3 主机监控...2

1.4 云服务监控... 3

1.5 资源分组...4

2 云监控在视频直播中的应用...6

2.1 简介... 6

2.2 主机监控...7

2.3 ELB 监控... 8

2.4 网络监控...9

3 云监控在众包平台中的应用...11

3.1 简介... 11

3.2 站点监控... 12

3.3 主机监控... 13

3.4 网络监控... 14

3.5 事件监控... 14

4 事件监控最佳实践... 16

4.1 弹性云服务器事件... 16

4.2 关系型数据库事件... 17

4.3 弹性公网 IP 事件...18

5 使用资源分组和告警功能上报指定资源的监控指标...20

6 配置云服务器全部挂载点磁盘使用率告警规则...24

A 修订记录... 26

最佳实践 目 录

(4)

1 电商平台业务监控

1.1 简介 1.2 站点监控 1.3 主机监控 1.4 云服务监控 1.5 资源分组

1.1 简介

电商业务内存要求高、数据量大并且数据访问量大、要求快速的数据交换和处理,监 控要求极其高。

ECS为核心服务,全面、立体的ECS监控系统对业务稳定起到了至关重要的作用。主机 监控功能可提供服务器的系统级、主动式、细颗粒度监控服务。为业务的顺畅运行保 驾护航。

网站为电商平台的入口,双12、618等大型购物节,会导致不同网络用户访问电商网站 出现网页打开慢、网络延时高等问题。站点监控可对网站或ECS的弹性IP等进行持续拨 测,监控业务入口的可用性及响应时间。

针对电商平台使用的RDS、ELB、VPC等服务,可以使用云服务监控,在云服务监控页 面实时查看云服务运行状态、各个指标的使用情况并对监控指标设置告警规则,精确 掌握云服务的运行情况。

电商业务主要涉及华为云ECS、CDN、AS、安全服务、RDS、ELB、OBS等服务。通过 资源分组功能从业务视角查看资源使用情况、告警情况、健康情况,管理告警规则,

可以极大的降低运维复杂度,提高运维效率。

1.2 站点监控

针对大量的静态数据,如产品图片,产品视频等导致不同网络用户访问电商网站出现 网页打开慢、网络延时高等问题。可以使用站点监控对网站或ECS的弹性IP等进行持续 拨测,监控业务入口的可用性及响应时间。

最佳实践 1 电商平台业务监控

(5)

操作步骤

1. 登录管理控制台。

2. 单击“服务列表 > 云监控服务”。

3. 单击左侧导航栏的“站点监控”。

4. 在“站点监控”界面,单击右上角“创建站点监控”,进入“创建站点监控”界 面。

5. 在弹出的“创建站点监控”对话框中根据界面提示配置参数,如图1-1所示。

1-1 创建站点监控

说明

监控频率建议设置为1分钟,更多参数说明如配置参数所示。

6. 配置完成后,单击“确定”,完成创建站点监控。

7. 单击站点监控所在行右侧“操作”列下的“创建告警规则”。

8. 在创建告警规则界面,按照界面提示配置参数,参数说明请参见配置参数。

说明

响应时间大于400毫秒为缓慢,建议配置成连续出现3次为400毫秒发送告警。

9. 配置完成后,单击“立即创建”,完成创建告警规则。

当网站或ECS的弹性IP出现异常时,站点监控会第一时间通过消息通知服务实时告 知资源异常,提醒您处理异常。

1.3 主机监控

ECS是电商平台的基础支撑,因此ECS上细微的性能变化,都可能会引起电商业务的大 幅震荡,甚至出现宕机,引起巨大损失。

最佳实践 1 电商平台业务监控

(6)

主机监控提供了包括基础监控和操作系统监控两种不同监控粒度层次的监控。基础监 控为ECS自动上报的监控指标,操作系统监控通过在ECS中安装Agent插件,为用户提 供服务器的系统级、主动式、细颗粒度监控服务。

应用场景

促销、秒杀、爆款等电商业务场景,瞬间访问量达到平常的几十至数百倍,会导致服 务器负载高,系统响应慢。

您可以对ECS的监控指标配置告警规则,比如CPU使用率,当CPU使用率达到配置的阈 值时发送告警通知,及时处理异常。

前提条件

已安装Agent插件,具体安装步骤请参见安装配置Agent。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“主机监控”,进入主机监控页面。

5. 单击ECS主机所在栏右侧的“更多”按钮,选择下拉出的“创建告警规则”。

6. 在“创建告警规则”界面,根据界面提示配置参数。

a. 监控对象为当前的ECS,无需配置。

b. 选择监控指标,选择“自定义创建”,参照配置参数说明完成参数配置。

说明

以CPU使用率为例,由于需要给服务器预留部分处理性能保障服务器正常运行,所以 建议将CPU告警阈值设置为80%,连续三次超过阈值后开始报警。

c. 配置完成后,单击“立即创建”,完成创建告警规则。

告警规则创建完成后,当业务量飙升,监控指标触发设定的阈值时,云监控会在第一 时间通过消息通知服务实时告知资源异常,提醒您处理,以免因此造成业务损失。

1.4 云服务监控

电商平台RDS、ELB、VPC等服务,可以使用云服务监控,在云服务监控页面实时查看 云服务运行状态、各个指标的使用情况并对监控指标设置告警规则,精确掌握云服务 的运行情况。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 选择“云服务监控 > 弹性负载均衡”。

5. 单击弹性负载均衡所在行“操作”列下的“创建告警规则”。

进入创建告警规则页面。

最佳实践 1 电商平台业务监控

(7)

说明

为关系型数据库、弹性公网IP和带宽创建告警规则在“云服务监控”下选择关系型数据库 或弹性公网IP和带宽。

告警规则参数详情,请参见创建告警规则。

说明

● 为了更好监控弹性负载均衡服务,需要先开启负载均衡ELB的健康检查,详情参见健康 检查异常如何排查?,建议设置负载均衡ELB网络流出速率的80%作为告警阈值。

● 建议将RDS的CPU使用率告警阈值设置为80%,连续三次超过阈值后开始告警。磁盘使 用率、IOPS、使用中的数据库连接数等其他监控指标可根据您的实际情况来设置。

● 建议将弹性公网IP和带宽的出网带宽使用率告警阈值设置为80%,连续三次超过阈值后 开始告警。其他监控指标可根据您的实际情况来设置。

6. 单击“立即创建”,完成告警规则的创建。

当业务量飙升,RDS、弹性公网IP和带宽或ELB的监控指标触发设定的阈值时,云 监控会在第一时间通过消息通知服务实时告知资源异常,提醒您处理,以免因此 造成业务损失。

1.5 资源分组

一套完整的电商平台会使用到ECS、CDN、AS、安全服务、RDS、OBS、VPC等服务,

您可以创建资源分组,将电商业务的ECS、EIP、EVS等资源划分成一个分组,通过资源 分组功能从业务视角查看资源使用情况、告警情况、健康情况,管理告警规则,可以 极大的降低运维复杂度,提高运维效率。

本章节指导用户创建资源分组。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“资源分组”,进入“资源分组”页面。

5. 单击页面右上角的“创建资源分组”按钮。

1-2 创建资源分组

6. 按照界面提示,填写分组名称。

7. 选择需要添加的云服务资源。

最佳实践 1 电商平台业务监控

(8)

1-3 选择云服务资源

8. 单击“立即创建”,完成资源分组的创建。

创建完成后,可在资源分组界面查看分组的资源使用情况、告警情况、健康情况 等。

最佳实践 1 电商平台业务监控

(9)

2 云监控在视频直播中的应用

2.1 简介 2.2 主机监控 2.3 ELB监控 2.4 网络监控

2.1 简介

在互联网飞速发展的时代,视频直播服务需求量不断加大。华为云稳定的ECS、VPC、

ELB,可为您的视频直播服务提供稳定的资源,以保障便捷接入、低延迟、高并发、高 清流畅的视频直播服务,减少视频卡顿、模糊带来的用户体验差的问题。

在华为云部署的视频直播业务典型架构图如图2-1所示,其中所用到多个ECS、VPC、

ELB。ECS作为视频直播服务的基础,VPC提供网络基础,ELB用于流量分发。ECS细微 的性能变化,网络访问流量的突增都会引起业务动荡,因此,对云资源的实时监控,

及时通知资源异常变得越来越重要。华为云云监控可提供对ECS、VPC、ELB等资源的 监控,及时发现异常并通知用户处理。

最佳实践 2 云监控在视频直播中的应用

(10)

2-1 视频直播业务架构图

2.2 主机监控

在视频直播中,弹性云服务器作为核心基础,细微的性能变化,可能会引起云服务上 的业务受到大幅震荡。为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装 配置Agent。

本章节介绍如何对弹性云服务器的CPU使用率、内存使用率、磁盘使用率设置告警规 则。并在弹性伸缩中配置弹性伸缩策略,当CPU使用率连续5分钟内连续5次达到90%

时,系统自动增加一个实例以保证业务平稳运行。

创建告警规则

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“主机监控”,进入主机监控页面。

5. 单击弹性云服务器所在栏右侧的“更多”按钮,选择“创建告警规则”。

6. 在“创建告警规则”界面,完成参数配置。

主题通知选择已创建的Notification主题,具体创建主题请参见创建主题。

说明

● CPU使用率、内存使用率、磁盘使用率等为ECS基础监控的指标。(Agent)使用率、

(Agent)内存使用率、(Agent)磁盘使用率等为细粒度(分钟级)监控指标。

● 建议针对(Agent)CPU使用率、(Agent)内存使用率、(Agent)磁盘使用率可配置

“平均值≥80%”、告警级别为重要的告警规则。同时配置“平均值≥90%”、告警级 别为紧急的告警规则。

最佳实践 2 云监控在视频直播中的应用

(11)

配置伸缩策略

1. 单击“计算 > 弹性伸缩 > 伸缩实例”。

2. 在伸缩实例页面,单击“创建弹性伸缩组”,创建伸缩组请参见创建伸缩组。

3. 创建完成后,单击伸缩组所在行的“查看伸缩策略”。

4. 在“查看伸缩策略”页面,单击“添加”,进入添加策略页面,参照图2-2完成参 数配置。

2-2 配置弹性伸缩策略

告警规则与伸缩策略创建完成后,当业务量飙升,监控指标触发设定的阈值时,系统 自动增加一个实例并在第一时间通过消息通知服务的Notifiaction中的电话和短信实时 告知资源异常,提醒您处理,以免因此造成业务损失。

2.3 ELB 监控

在视频直播中,网络访问流量的突增可能会引起业务的动荡,因此绝大多数的视频直 播平台都会使用ELB自动分发流量到多台云服务器。

那么,ELB的稳定可靠运行对视频直播业务的正常运行至关重要。华为云云监控可以监 控ELB的异常主机数和并发连接数,确保您的业务稳定可靠运行。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“总览 > 监控面板”,进入监控面板页面。

5. 切换到需要添加监控视图的监控面板,然后单击“添加监控视图”,系统弹出

“添加监控视图”窗口。

最佳实践 2 云监控在视频直播中的应用

(12)

在“添加监控视图”界面,将视频直播所涉及的所有弹性负载均衡的并发连接数 放到同一个监控视图中。

2-3 添加监控视图

说明

同一个视频直播业务中的所有并发连接数的运行趋势图应一致,若其中一个或多个与其他 趋势不一致,说明出现异常,应及时排查处理。

6. 单击“告警 > 告警规则 > 创建告警规则”。

7. 在“创建告警规则”界面,根据界面提示配置参数。

主题通知选择已创建的Notification主题,具体创建主题请参见创建主题。

说明

对视频直播业务,可针对异常主机数设置告警规则,当原始值大于1,出现一次告警时就应 该及时排查异常。

8. 单击“立即创建”,完成创建告警规则。

当ELB出现异常时,云监控会在第一时间通过消息通知服务实时告知资源异常,提 醒您处理,以免因此造成业务损失。

2.4 网络监控

针对视频直播业务的带宽使用情况,出网带宽到达上限值会出现随机丢包现象,因此 需要重点关注带宽和弹性IP的出网带宽指标。

本章节指导用户对弹性IP和带宽的出网带宽使用率指标设置告警规则。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“云服务监控 > 弹性公网IP和带宽”,单击具体带宽或弹性IP所 在行的“创建告警规则”。

最佳实践 2 云监控在视频直播中的应用

(13)

说明

建议针对业务所涉及的弹性公网IP、带宽配置告警规则,出网带宽使用率,阈值设置为

“原始值”“≥”购买带宽的90%。

5. 根据界面提示配置名称、描述和告警规则和告警通知参数。

6. 单击“立即创建”,完成创建告警规则。

当带宽出现异常时,云监控会在第一时间通过消息通知服务实时告知资源异常,

提醒您处理,以免因此造成业务损失。

最佳实践 2 云监控在视频直播中的应用

(14)

3 云监控在众包平台中的应用

3.1 简介 3.2 站点监控 3.3 主机监控 3.4 网络监控 3.5 事件监控

3.1 简介

众包平台作为知识工作者共享平台,利用互联网来将工作分配出去,连接雇主和服务 提供者。众多服务商为企业、公共机构和个人提供定制化的解决方案,将创意、智 慧、技能转化为商业价值和社会价值。

在华为云部署的众包平台的经典架构图如图3-1所示,核心数据库采用BMS集群方式部 署数据库集群,Web-Server与API-Server部署在ECS上,Web-Server主要提供网站的 搜索、类目、店铺、交易等业务,API-Server为连接各业务与数据库的各个基础接口。

BMS与ECS的运行状态对整体业务至关重要,CPU、内存、磁盘使用率等会直接影响整 体业务状态,因此,需使用3.3 主机监控和3.5 事件监控随时监控ECS与BMS的运行状 况。

网站与各个基础接口的可用性、响应时间、丢包率等会直接影响用户使用的流畅程 度,需使用3.2 站点监控随时监控各站点的运行情况。

VPC、NAT、ELB等提供基础的网络支持,网络状态影响各个业务之间的连通性,因此 需使用3.4 网络监控来随时监控各业务系统的运行状况。

最佳实践 3 云监控在众包平台中的应用

(15)

3-1 众包平台架构图

3.2 站点监控

大量的商品类目、用户信息、交易数量、店铺展示信息,会导致不同用户访问网站速 度变慢。可使用站点监控对网站的可用性进行监控,并且对类目、用户、交易、店铺 等接口进行持续拨测,测试接口的可用性,判断业务系统是否正常。

本章节以www.example.com为例,创建站点监控,并为站点的可用性、响应时间、丢 包率创建告警规则,当发生异常时通知用户及时处理。

最佳实践 3 云监控在众包平台中的应用

(16)

操作步骤

1. 登录管理控制台。

2. 单击“服务列表 > 云监控”。

3. 单击左侧导航栏的“站点监控”。

4. 在“站点监控”界面,单击右上角“创建站点监控”,进入“创建站点监控”界 面。

5. 在弹出的“创建站点监控”对话框中根据界面提示配置参数,如图3-2所示。

3-2 创建站点监控

6. 配置完成后,单击“确定”,完成创建站点监控。

7. 创建站点监控完成后,单击站点名称右侧的“ 创建告警规则”,为设置的站点配 置告警规则。

8. 在创建告警规则界面,按照界面提示配置参数,参数说明请参见配置参数。

说明

建议针对可用性≤95%、响应时间≥400ms、丢包率≥5%等监控指标,配置告警级别为重要 的告警规则。

9. 配置完成后,单击“创建”,完成创建告警规则。

当网站的可用性、响应时间等出现异常时,站点监控会第一时间通过消息通知服 务实时告知资源异常,提醒您处理异常。

3.3 主机监控

针对众包平台中使用的ECS和BMS,ECS作为业务的计算资源,数据库部署在BMS上。

因此,BMS的磁盘速度会影响数据库操作速度,ECS的内存和CPU占用大小等会影响业 务执行速度,为了监控更细颗粒度的监控指标,可以在弹性云服务器中安装配置 Agent。

最佳实践 3 云监控在众包平台中的应用

(17)

具体监控指标方面,可设置CPU使用率>80%、内存使用率>80%、磁盘使用率>80%,

以下以CPU使用率为例。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“主机监控”,进入主机监控页面。

5. 单击弹性云服务器所在栏右侧的“更多”按钮,选择“创建告警规则”。

6. 在“创建告警规则”界面,完成参数配置。

主题通知选择已创建的Notification主题,具体创建主题请参见创建主题。

告警规则创建完成后,当业务量飙升,监控指标触发设定的阈值时,系统会在第 一时间通过消息通知服务的Notifiaction中的邮件或短信实时告知资源异常,提醒 您处理,以免因此造成业务损失。

3.4 网络监控

在众包平台活动期间,网站首页、登录页面、店铺详情页都会出现瞬时间的访问流量 变大的情况,因此需随时监控出网带宽。

并且可能受到DDOS攻击或业务量大时连接数突增,导致业务访问变慢,预计SNAT连 接数会达到平时访问量的2-3倍,所以需随时监控SNAT连接数。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 选择“云服务监控”。

5. 分别单击弹性公网IP和带宽与NAT网关所在行的“创建告警规则”。

说明

● 这里以平时的SNAT连接数为10000为例,高峰期为平时的2-3倍,因此配置SNAT连接 数为30000的告警规则。

● 出网带宽使用率建议配置为80%。

6. 配置完成后,单击“立即创建”,完成创建告警规则。

当带宽出现异常时,云监控会在第一时间通过消息通知服务实时告知资源异常,

提醒您处理,以免因此造成业务损失。

3.5 事件监控

在实际的业务的运行中,ECS、BMS可随时根据业务调整,进行删除、重启、关闭、删 除网卡、删除安全组等操作。因此,可以使用事件监控随时监控ECS、BMS的运行状 态。

最佳实践 3 云监控在众包平台中的应用

(18)

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“事件监控”,在事件列表页面,单击相应事件右侧的创建告警 规则。

说明

此处以删除虚拟机事件为例,可根据业务需要,针对重启虚拟机、关闭虚拟机、删除网卡 等创建告警规则。

当ECS、BMS出现异常时,云监控会在第一时间通过消息通知服务实时告知资源异 常,提醒您处理,以免因此造成业务损失。

最佳实践 3 云监控在众包平台中的应用

(19)

4 事件监控最佳实践

4.1 弹性云服务器事件 4.2 关系型数据库事件 4.3 弹性公网IP事件

4.1 弹性云服务器事件

弹性云服务器是作为一种可随时获取、弹性可扩展的计算服务器。在各业务中,弹性 云服务器作核心基础,细微的性能变化,运行异常及自动恢复,都可能会引起云服务 上的业务受到大幅震荡。

因此需使用弹性负载均衡将访问流量根据转发策略分发到后端多台弹性云服务器,通 过流量分发扩展应用系统对外的服务能力,通过消除单点故障提升应用系统的可用 性,并且使用云监控的事件监控功能对服务器运行异常及自动恢复进行监控,订阅事 件告警同步进行业务处理。

4-1 ECS 重点事件

事件名称 事件说明 处理步骤

开始自动 恢复

弹性云服务器所在的主机出现故 障时,系统会自动将弹性云服务 器迁移至正常的物理机,该过程 会导致云服务器重启,并发送一 个“开始自动恢复”的事件,当 迁移完成后,并发送一个“结束 自动恢复”的事件,表示已恢复 正常。

当收到“开始自动恢复”时,说明 已发生故障,该机器无法使用,需 要考虑更换弹性云服务器,或考虑 将流量导至其他机器。

结束自动 恢复

当收到“结束自动恢复”时,说明 该ECS已正常工作,可继续使用。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

最佳实践 4 事件监控最佳实践

(20)

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“事件监控”,在事件监控页面,单击相页面右上角的创建告警 规则,根据界面提示配置参数。

说明

事件名称分别配置“开始自动恢复”“结束自动恢复”,具体参数说明请参见创建告警规 则。

5. 配置完成后,单击“立即创建”,完成创建告警规则。

当ECS出现异常事件时,云监控会在第一时间通过消息通知服务实时告知资源异 常,提醒您处理,以免因此造成业务损失。

4.2 关系型数据库事件

关系型数据库是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的 在线关系型数据库服务。在使用关系型数据库中,需持续关注数据库状态,可通过事 件监控,对异常事件告警进行处理,保证业务稳定运行。

4-2 RDS 重点事件

事件名称 事件说明 处理步骤

创建实例业务失败 创建实例失败产生的事件,一般 是磁盘个数,配额大小都很小,

底层资源耗尽导致。

检查磁盘个数、配额大 小,释放资源后重新创 建。

实例全量备份失败 单次全量备份失败产生的事件,

不影响以前成功备份的文件,但 会对“时间点恢复”的功能有一 些影响,导致“时间点恢复”时 增量备份的回复时间延长。

重新发起一次手工备份。

主备切换异常 主备切换异常是由于网络、物理 机有某种故障导致备机没有接管 主机的业务,短时间内会恢复到 原主机继续提供服务。

检查应用和数据库之间的 连接是否重新建立了连 接。

复制状态异常 即主备之间复制时延太大(一般 在写入大量数据,或者执行大事 务的时候会出现),在业务低峰 期备机会逐渐追上主机。还有另 一种可能是主备间的网络中断,

导致主备复制异常。但不会导致 原来单实例的读写中断,客户的 应用是无感知的。

提交工单处理。

实例运行状态异常 由于灾难或者物理机故障导致单 机或者主实例出现故障时会上报 本事件,属于关键告警事件,有 可能导致数据库服务不可用。

检查是否有设置自动备份 策略,并且提交工单处 理。

最佳实践 4 事件监控最佳实践

(21)

事件名称 事件说明 处理步骤 单实例转主备实例

失败

即创建备机或者备机创建完成后 在主备机之间配置同步有故障,

一般是由于备节点所在数据中心 资源不足导致,转主备失败不会 导致原来单实例的读写中断,客 户的应用是无感知的。

提交工单处理。

复制状态异常已恢 复

即复制时延已回到正常范围内,

或者主备之间的网络通信恢复。

不需要处理。

实例运行状态异常

已恢复 针对灾难性的故障,RDS有高可用 工具会自动进行备机重建,重建 完成之后即会上报本事件。

不需要处理。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“事件监控”,在事件监控页面,单击相页面右上角的创建告警 规则,根据界面提示配置参数。

说明

事件名称以“实例全量备份失败”为例,请根据实际情况配置,具体参数说明请参见创建 告警规则。

5. 配置完成后,单击“立即创建”,完成创建告警规则。

当RDS出现异常事件时,云监控会在第一时间通过消息通知服务实时告知资源异 常,提醒您处理,以免因此造成业务损失。

4.3 弹性公网 IP 事件

虚拟私有云为弹性云服务器构建隔离的、用户自主配置和管理的虚拟网络环境,提升 用户云中资源的安全性,简化用户的网络部署。

当您的弹性云服务器要访问Internet时,您可使用虚拟私有云创建的弹性公网IP绑定到 弹性云服务器上,弹性云服务器即可连接公网。不同弹性公网IP还可以共享带宽,减 少您的带宽成本。

使用弹性公网IP时,可使用事件监控弹性公网IP的状态,可防止出现异常事件,导致丢 包等情况影响用户业务,用户需要订阅事件告警同步进行业务处理。

最佳实践 4 事件监控最佳实践

(22)

4-3 弹性公网 IP 重点事件

事件名称 事件说明 处理步骤

EIP带宽超限 收到该事件,说明带宽已超过购 买的带宽,可能会导致网络变慢 或丢包发生。

说明EIP带宽超限事件当前仅在“华北-北 京一”、“华北-北京四”、“华北- 乌兰察布一”、“华东-上海一”、

“华东-上海二”、“西南-贵阳一”

和“华南-广州”区域上线。

需要检查EIP带宽是否一直增加,

业务是否正常,需要考虑进行扩 容。

EIP封堵 带宽超过5G就会封堵,相当于把 流量直接丢弃,说明带宽严重超 限或收到攻击,一般是受到了 DDoS攻击。

收到EIP解封事件时,说明封堵已 被解封。

需要更换EIP,避免业务受到影 响,同时查看事件中的封堵原 因,进行相应处理。

EIP解封 可以换回EIP,可以将被解封EIP

重新进行使用,避免资源浪费。

操作步骤

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 单击页面左侧的“事件监控”,在事件监控页面,单击相页面右上角的创建告警 规则,根据界面提示配置参数。

说明

事件名称以“EIP带宽超限事件”为例,具体参数说明请参见创建告警规则。

5. 配置完成后,单击“立即创建”,完成创建告警规则。

当EIP出现异常事件时,云监控会在第一时间通过消息通知服务实时告知资源异 常,提醒您处理,以免因此造成业务损失。

最佳实践 4 事件监控最佳实践

(23)

5 使用资源分组和告警功能上报指定资源的监 控指标

场景描述

云监控服务提供了资源分组功能和告警功能。如何将您的资源进行有效分组,并按分 组后的资源监控指标通过短信或邮箱告知告警信息呢?

本章节为您解答上述问题。

假设我们有4台云服务器,两台用于开发项目组(ECS-01和ECS-02),两台用于测试 项目组(ECS-03和ECS-04)。现在需要通过告警通知功能,及时获取开发组下的两台 弹性云服务器的资源运行状态(包含CPU利用率、CPU空闲时间占比、平均负载、I/O 使用率、磁盘使用率、内存使用率、inode已使用占比),而测试组下的两台弹性云服 务器不需要获取其运行状态。

5-1 云服务器列表和分组规划

云服务器名称 分组 是否需要安装Agent 所属部门

ECS-01 开发组资源 是 开发项目组

ECS-02 开发组资源 是 开发项目组

ECS-03 无需分组 否 测试项目组

ECS-04 无需分组 否 测试项目组

前提条件

ECS01和ECS02已经安装了主机监控Agent。具体请参考Agent安装配置。

操作步骤 1-创建资源分组

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

最佳实践 5 使用资源分组和告警功能上报指定资源的监控指标

(24)

4. 单击页面左侧的“资源分组”,进入“资源分组”页面。

5. 单击页面右上角的“创建资源分组”按钮。

6. 按照界面提示,填写分组名称,本示例中,填写“开发组资源”。

7. 选择需要添加的云服务资源。

5-1 选择云服务资源

8. 单击“立即创建”,完成资源分组的创建。

操作步骤 2-创建主题并配置通知对象

创建主题用于资源指标异常时可以发送告警通知对配置的主题接收者。

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 选择“应用服务 > 消息通知服务”。

进入消息通知服务页面。

4. 在左侧导航栏,选择“主题管理 > 主题”。

进入主题页面。

5. 在主题页面,单击“创建主题”,开始创建主题。

此时将显示“创建主题”对话框。

5-2 创建主题

6. 在“主题名称”框中,输入主题名称,在“显示名”框中输入相关描述。

7. 单击“确定”,主题创建成功。

新创建的主题将显示在主题列表中。

最佳实践 5 使用资源分组和告警功能上报指定资源的监控指标

(25)

说明

单击主题名称,可查看主题详情和主题订阅总数。

8. 在主题列表中,选择新建的主题名称,在右侧“操作”栏单击“添加订阅”。

5-3 添加订阅

9. 在“协议”下拉框中选择订阅终端支持的协议,在“订阅终端”输入框中输入对 应的订阅终端。

10. 单击“确定”。

新增订阅将显示在页面下方的订阅列表中。

操作步骤 3-创建告警规则

1. 登录管理控制台。

2. 在管理控制台左上角选择区域和项目。

3. 单击“服务列表 > 云监控服务”。

4. 选择“告警 > 告警规则”。

5. 单击“创建告警规则”。

6. 在“创建告警规则”界面,根据界面提示配置参数。

a. 根据界面提示,配置告警规则名称。

5-4 配置告警规则名称

b. 选择监控对象,配置告警触发条件。

最佳实践 5 使用资源分组和告警功能上报指定资源的监控指标

(26)

5-5 配置告警规则

说明

注意,配置“分组”参数时,选择在操作步骤1-创建资源分组中创建的“开发组资 源”。

c. 根据界面提示,配置告警通知参数。

5-6 配置告警通知

说明

注意,配置“通知对象”参数时,选择在操作步骤2-创建主题并配置通知对象中创建 的“Mytopic”。

d. 配置完成后,单击“立即创建”,完成告警规则的创建。

告警规则添加完成后,当监控指标触发设定的阈值时,云监控服务会在第一时间通过 消息通知服务实时告知您开发组资源(ECS-01和ECS-02)的监控指标异常,以免因此 造成业务损失。

最佳实践 5 使用资源分组和告警功能上报指定资源的监控指标

(27)

6 配置云服务器全部挂载点磁盘使用率告警规

场景描述

云监控服务提供了配置云服务器全部挂载点告警规则的能力。本章节介绍了配置云服 务器全部挂载点磁盘使用率告警规则的操作流程。

● 磁盘使用率指标调整为挂载点维度,在新配置磁盘使用率告警规则时需要选择

“云服务器挂载点”维度。

● 如果选择了配置云服务器全部挂载点的告警规则,后续该云服务器的新增挂载点 会自动适配该告警规则。

● 对于用户之前已配置的包含挂载点磁盘使用率的告警规则,在用户修改告警规则 时,会提示将该条告警规则拆分成不同维度的多条规则。建议在拆分时,选择将 拆分后的挂载点规则,替换为全部挂载点。

6-1 配置挂载点告警规则优化前后示意图

前提条件

云服务器已经安装了Agent插件。

操作步骤

1. 登录管理控制台。

最佳实践 6 配置云服务器全部挂载点磁盘使用率告警规则

(28)

2. 单击“服务列表 > 云监控服务”。

3. 单击告警,进入告警规则界面,然后单击“创建告警规则”。

4. 在“创建告警规则”界面,根据界面提示配置“名称”、“企业项目”参数。

5. 资源类型”参数选择“弹性云服务器”,“维度”参数选择“云服务器挂载 点”。

6. “监控范围”参数选择“指定资源”。在资源选择列表中,选择指定云服务器下 全部挂载点选项。(建议勾选“全选”按钮,可以直接选择账号所有云服务器的 全部挂载点)。

7. “告警策略”参数选择“(Agent)磁盘使用率”指标,并设置合适的阈值及告警 策略。

8. 如需告警通知,可打开“发送通知”开关,并选择对应的通知对象和方式。

最佳实践 6 配置云服务器全部挂载点磁盘使用率告警规则

(29)

A 修订记录

发布日期 修改记录

2021-06-16 配置云服务器全部挂载点磁盘使用率告警规则上线。

2020-03-09 使用资源分组和告警功能最佳实践上线。

2019-03-06 事件监控最佳实践上线。

2019-01-22 云监控在众包平台中的应用上线。

2018-09-30 云监控在视频直播中的应用上线。

2018-07-30 电商平台业务监控上线。

最佳实践 A 修订记录

數據

表 4-3 弹性公网 IP 重点事件 事件名称 事件说明 处理步骤 EIP带宽超限 收到该事件,说明带宽已超过购 买的带宽,可能会导致网络变慢 或丢包发生。 说明 EIP带宽超限事件当前仅在“华北-北  京一”、“华北-北京四”、“华北-乌兰察布一”、“华东-上海一”、 “华东-上海二”、“西南-贵阳一” 和“华南-广州”区域上线。 需要检查EIP带宽是否一直增加,业务是否正常,需要考虑进行扩容。 EIP封堵 带宽超过5G就会封堵,相当于把 流量直接丢弃,说明带宽严重超 限或收到攻击,一般是受到了 DDoS

參考文獻

相關文件

年青的學生如能把體育活動融入日常生活,便可提高自己的體育活動能

常識科的長遠目標是幫助學生成為終身學習者,勇於面對未來的新挑 戰。學校和教師將會繼續推展上述短期與中期發展階段的工作

[r]

[r]

地址:香港灣仔皇后大道東 213 號 胡忠大廈 13 樓 1329 室 課程發展議會秘書處 傳真:2573 5299 或 2575 4318

教育統籌委員會的教育改革建議指出

4.1.2 從一九九七年起,某些課題曾在一些學校進行試教(有關試教 課題/教學策略見附錄

[r]