云监控服务
快速入门
文档版本 01
发布日期 2020-05-12
版权所有 © 华为技术有限公司 2021。 保留一切权利。
非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。
商标声明
和其他华为商标均为华为技术有限公司的商标。
本文档提及的其他所有商标或注册商标,由各自的所有人拥有。
注意
您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或 特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声 明或保证。
由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文 档中的所有陈述、信息和建议不构成任何明示或暗示的担保。
目 录
1 查看监控总览... 1
2 查看云服务监控指标... 3
3 使用主机监控... 6
4 使用站点监控... 8
5 使用自定义监控... 11
6 使用事件监控...13
7 使用资源分组...15
8 创建告警规则...16
快速入门 目 录
1
查看监控总览
监控概览为您提供了资源总览、告警统计、主机监控、网络监控、存储监控、站点监 控概览等。通过查看监控概览,让您实时了解各云服务的资源使用情况和告警情况。
资源总览
资源总览展示您当前账户下弹性云服务器,关系型数据库、弹性公网IP和带宽、云硬 盘、对象存储服务等云服务资源总数以及告警数,方便您快速了解云服务资源的运行 情况。
告警统计
告警统计提供最近7日告警趋势图、当前不同等级告警条数统计。
单击不同告警等级的规则条数,可以跳转至告警规则页面,显示所有该告警等级的所 有告警规则。
说明
在告警规则页面,单击“查看资源详情”,根据资源ID到相应云服务控制台查找具体资源进行处 理。
主机监控
主机监控展示当前所有弹性云服务器的CPU利用率分布图、最近五分钟CPU利用率 Top5,方便您查看当前弹性云服务器的CPU使用情况。
单击不同CPU利用率的弹性云服务器,可跳转到基础监控图表页面。
快速入门 1 查看监控总览
● 出网带宽:统计测量对象出云平台的网络速度。
说明
查看网络监控数据需申请VPC并绑定EIP或带宽,请参见创建虚拟私有云和子网。
存储监控
存储监控展示磁盘最近5分钟读写带宽之和与最近5分钟读写IOPS之和,方便您了解磁 盘使用情况。
说明
查看存储监控数据需要购买云硬盘,请参见购买云硬盘。
站点监控概览
站点监控展示出探测点探测站点的可用性、连通性等问题。
展示出最近1小时时延高Top 5的站点名称以及响应时间,方便您了解站点整体性能,
及时处理异常情况。
监控大屏
您可以通过监控大屏查看告警统计、主机监控、事件监控等监控信息,可用性更强,
视觉效果更好。
快速入门 1 查看监控总览
2
查看云服务监控指标
云监控服务基于云服务自身的服务属性,已经内置了详细全面的监控指标。当您在云 平台上开通云服务后,系统会根据服务类型自动关联该服务的监控指标,帮助您实时 掌握云服务的各项性能指标,精确掌握云服务的运行情况。
本章节指导用户如何查看云服务资源的监控数据,若发现有异常时可以及时处理。
说明
支持企业项目的服务,系统默认展示用户拥有权限的企业项目的主机资源列表。目前支持企业项 目的服务有:弹性云服务器(ECS)、虚拟私有云(VPC)、云硬盘(EVS)、关系型数据库
(RDS)、分布式缓存服务(DCS)、文档数据库(DDS)、弹性负载均衡(ELB)、分布式消 息服务(DMS)。
操作步骤
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击页面左侧的“云服务监控 > 云服务名称”。
进入“云服务监控”页面。
4. 选择待查看的云服务资源所在行的“查看监控指标”。
进入“监控指标”页面。
您可以选择页面左上方的时间范围按钮,查看该云服务资源“近1小时”、“近3 小时”、“近12小时”、“近24小时”和“近7天”的监控原始数据曲线图,同 时监控指标视图右上角会动态显示对应时段内监控指标的最大值与最小值。您也 可以打开自动刷新开关来查看每分钟刷新的实时数据。
快速入门 2 查看云服务监控指标
图2-1 查看监控图表
说明
监控图表中单位为字节和字节每秒的指标支持单位切换。单位切换时,当最大值小于 10^(-5)时,会出现最大值和最小值同时为0的情况,并且监控图表数据全为0。
5. 单击页面右上角的“设置监控指标”。
进入“设置监控指标”页面。
您可以选择要展示的指标名称,并且可以拖动选中指标对指标进行排序,方便您 自定义需要查看的指标运行状况。
说明
人工智能服务、API网关暂不支持自定义设置指标自定义显示。
6. 鼠标滑动到对应指标后,单击指标视图右上角的 图标。
进入监控详情页面。
监控详情页面提供更长时间范围的指标情况。您可以查看“近1小时”、“近3小 时”、“近12小时”、“近24小时”、“近7天”和“近30天”6个固定时长的监 控周期,同时也支持以通过“自定义时间段”选择查看近六个月内任意时间段的 历史监控数据。
说明
● “近1小时”、“近3小时”、“近12小时”、“近24小时”的监控数据:系统默认显 示原始数据。您可以选单击页面左上方的“设置”,对监控数据的聚合方法进行更改。
● “近7天”、“近30天”的监控数据:系统默认显示聚合后的数据。您可以选单击页面 左上方的“设置”,对监控数据的聚合方法进行更改。
快速入门 2 查看云服务监控指标
图2-2 出网带宽
7. 若需要导出数据,可在云服务监控页面单击“导出监控数据”,跟据界面提示选 择参数后单击“导出”完成导出数据。
快速入门 2 查看云服务监控指标
3
使用主机监控
主机监控分为基础监控、操作系统监控、进程监控。
● 基础监控:ECS/BMS自动上报的监控指标。
● 操作系统监控:通过在ECS或BMS中安装Agent插件,为用户提供服务器的系统 级、主动式、细颗粒度监控服务。
● 进程监控:针对主机内活跃进程进行的监控,默认采集活跃进程消耗的CPU、内 存,以及打开的文件数量等信息。
功能介绍
● 多种监控指标
安装Agent后,云监控服务会提供CPU、内存、磁盘、网络等四十余种监控指标,
满足服务器的基本监控运维需求。
● 细颗粒度监控
安装Agent插件后,Agent相关监控指标为 1分钟上报 1 次。
● 进程监控
采集当前活跃进程占用的 CPU、内存和打开文件数,让您了解弹性云服务器或裸 金属服务器的资源使用情况。
使用主机监控
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击页面左侧的“主机监控”,进入“主机监控”页面。
4. 选择要安装Agent的ECS或BMS,安装Agent插件。
a. 修改待安装Agent的ECS或BMS的DNS并添加安全组,具体步骤请参见修改 DNS与添加安全组(Linux)或修改DNS与添加安全组(Windows)。
b. 安装Agent,具体安装步骤请参见安装Agent(Linux)或安装配置Agent
(Windows)。
快速入门 3 使用主机监控
c. 图3-1 选择弹性云服务器
5. 5分钟后,当插件状态为“运行中”,说明Agent已安装成功。
单击弹性云服务器右侧操作列的“查看监控指标”查看监控数据。
快速入门 3 使用主机监控
4
使用站点监控
应用场景
站点监控用于模拟真实用户对远端服务器的访问,从而探测远端服务器的可用性、连 通性等问题。
站点监控可以探测域名、IP的可用性、访问响应时间、丢包率,并对监控结果告警。
创建站点监控
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击页面左侧的“站点监控”,进入“站点监控”页面。
4. 单击右上角“创建站点监控”,进入“创建站点监控”界面。
按照如下案例所示配置参数。
快速入门 4 使用站点监控
图4-1 创建站点监控
站点名称:siteMonitor-uwlv 站点类型:HTTP(S)
站点地址:www.example.com 监控频率:1分钟
分布式探测点:华北(廊坊)、华东(上海)、华南(广州)
请求方式:POST 高级配置:现在配置
提交内容:params=83XC2pYQhIzokXXXXXsL2W0vdT9YLvIBQ2c9R6Hu
%2fJJX86m3GbhxC2ix92BPFVjcJRRCu
HTTP请求头:Content-Type: application/x-www-form-urlencoded
请求Cookies:Hm_lvt_e7a90fbbxxxxx0aec64d1170a5ca608f=1534402786
快速入门 4 使用站点监控
2. 单击“服务列表 > 云监控服务”。
3. 单击页面左侧的“站点监控”。
进入“站点监控”页面。“站点监控”页面展示用户当前所有的站点概况。包括 站点名称、监控频率、状态、响应时间等。
4. 单击站点名称所在行的“查看监控图表”。
进入监控图表页面,查看站点监控详情。
详细的查看站点监控详情,请参见查看站点监控。
图4-2 查看监控图表
图4-3 站点监控详情
快速入门 4 使用站点监控
5
使用自定义监控
自定义监控展示用户所有自主定义上报的监控指标。用户可以针对自己关心的业务指 标进行监控,将采集的监控数据通过使用简单的API请求上报至云监控服务进行处理和 展示。
添加监控数据请参见添加监控数据(RESTful API)、添加监控数据(Java SDK)、
添加监控数据(Python SDK)。
查看自定义监控指标
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击左侧导航栏的“自定义监控”。
4. 在“自定义监控”页面,可以查看当前用户通过API请求上报至云监控服务的相关 数据,包括自定义上报的服务、指标等。
5. 选择待查看的云服务资源所在行的“查看监控指标”,进入“监控指标”页面。
在这个页面,用户可以选择页面左上方的时间范围按钮,查看该云服务资源“近1 小时”、“近3小时”、“近12小时”的监控数据曲线图,同时监控指标视图右上 角会动态显示对应时段内监控指标的最大值与最小值。
6. 当用户需要查看具体监控指标的监控详情时,单击监控指标视图右上角的 图 标,进入监控详情页面。
页面左上方提供查看“近1小时”、“近3小时”、“近12小时”、“近24小 时”、“近7天”和“近30天”6个固定时长的监控周期,同时也支持以通过“自 定义时间段”选择查看近六个月内任意时间段的历史监控数据。
快速入门 5 使用自定义监控
5. 根据界面提示,配置告警规则名称、告警策略、告警通知等。
告警规则创建完成后,当自定义监控指标触发设定的告警策略时,云监控会在第 一时间通过消息通知服务告知您云上资源异常,以免因此造成业务损失。
快速入门 5 使用自定义监控
6
使用事件监控
事件监控提供了事件类型数据上报、查询和告警的功能。方便您将业务中的各类重要 事件或对云资源的操作事件收集到云监控,并在事件发生时进行告警。
事件即云监控保存并监控的云服务资源的关键操作。您可以通过“事件”了解到谁在 什么时间对系统哪些资源做了什么操作,如删除虚拟机、重启虚拟机等。
事件监控默认开通,您可以在事件监控中查看系统事件和自定义事件的监控详情,目 前支持的系统事件请参见事件监控支持的操作事件说明。
事件监控为您提供上报自定义事件的接口,方便您将业务产生的异常事件或重要变更 事件采集上报到云监控服务。上报自定义事件请参见上报事件。
自定义事件监控与自定义监控的区别:
● 自定义事件监控用于解决非连续的事件类型监控数据上报、查询与告警的场景。
● 自定义监控用于解决周期性、连续采集的监控数据上报、查询与告警的场景。
查看事件监控图表
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击左侧导航栏的“事件监控”,进入“事件监控”页面。
4. 在“事件监控”页面,默认展示近24小时的所有系统事件与自定义事件。
5. 单击具体事件右侧的操作列的“查看监控图表”,可查看具体事件的监控图表。
快速入门 6 使用事件监控
创建告警规则
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击左侧导航栏的“事件监控”,进入“事件监控”页面。
4. 在事件列表页面,单击相应事件所在行的的创建告警规则,进入创建告警规则页 面。
5. 根据界面提示,配置告警规则名称、告警策略、告警通知等。
告警规则创建完成后,当事件监控指标触发设定的告警策略时,云监控服务会在 第一时间通过消息通知服务告知您云上资源异常,以免因此造成业务损失。
快速入门 6 使用事件监控
7
使用资源分组
应用场景
● 业务视角管理资源
使用资源分组,方便用户将云账户下各类资源按业务分类,从业务角度出发查询 监控与告警信息。
● 日常巡检与故障快速定位
资源分组提供资源概览、不健康资源列表、告警规则、告警历史等功能。方便用 户查看云资源使用情况,收到报警后迅速定位故障资源与故障原因。
功能概览
● 资源分组可以跨产品,真正从业务角度管理您的云上资源。
● 提供不健康资源列表,方便用户快速定位故障资源。
● 分组详情页面提供告警历史列表,方便用户查看历史告警记录,了解总体业务运 行情况。
使用资源分组
1. 登录管理控制台。
2. 单击“服务列表 > 云监控服务”。
3. 单击页面左侧的“资源分组”,进入“资源分组”页面,
4. 单击页面右上角的“创建资源分组”按钮,按照界面提示,填写分组名称。
5. 选择需要添加的云服务资源。
6. 点击“立即创建”按钮,完成资源分组的创建。
快速入门 7 使用资源分组
8
创建告警规则
应用场景
告警功能为您提供监控数据的告警服务。您可以通过创建告警规则来定义告警系统如 何检查监控数据,并在监控数据满足告警策略时发送报警通知。
对重要监控指标创建告警规则后,便可在第一时间得知指标数据发生异常,迅速处理 故障。
功能介绍
● 支持对云监控服务的所有监控项创建告警规则。
● 支持对全部资源、资源分组、日志监控、自定义监控、事件监控、站点监控创建 告警规则。
● 支持设置告警规则生效时间,自定义告警规则生效的时间段。
● 支持邮箱、短信、HTTP、HTTPS等告警通知方式。
操作步骤
1. 登录管理控制台。
2. 在管理控制台左上角选择区域和项目。
3. 单击“服务列表 > 云监控服务”。
4. 在“告警 > 告警规则”界面,单击“创建告警规则”。
5. 在“创建告警规则”界面,根据界面提示配置参数。
a. 根据界面提示,配置规则信息参数。
图8-1 配置规则信息
快速入门 8 创建告警规则
表8-1 配置规则信息
参数 参数说明 取值样例
名称 系统会随机产生一个名称,用户也可以进行修
改。 alarm-b6al
描述 告警规则描述(此参数非必填项)。 -
b. 选择监控对象,配置告警内容参数。
图8-2 配置告警内容
表8-2 配置告警内容
参数 参数说明 取值样例
资源类型 配置告警规则监控的服务名称。 弹性云服务器 维度 用于指定告警规则对应指标的维度名称 云服务器 监控范围 告警规则适用的资源范围,可选择资源分组或
指定资源。
指定资源
快速入门 8 创建告警规则
参数 参数说明 取值样例 选择类型 根据需要可选择从模板导入或自定义创建。
说明
当监控范围为指定资源时可选择从模板导入。
自定义创建
模板 选择需要导入的模板。 -
告警策略 触发告警规则的告警策略。
例如:CPU使用率,监控周期为5分钟,连续三 个周期平均值≥80%,每一小时告警一次。
说明
每一小时告警一次是指告警发生后如果状态未恢复 正常,每间隔一个小时重复发送一次告警通知。
-
告警级别 根据告警的严重程度不同等级,可选择紧急、
重要、次要、提示。
重要
c. 根据界面提示,配置告警通知参数。
图8-3 配置告警通知
表8-3 配置告警通知
参数 参数说明 取值样例
发送通知 配置是否发送邮件、短信、HTTP和HTTPS通知 用户。
选择“是”(推荐选择),会发送通知;选择
“否”,不会发送通知。
是
通知对象 需要发送告警通知的对象,可选择云账号联系 人或主题。
● 云账号联系人为注册账号时的手机和邮箱。
● 主题是消息发布或客户端订阅通知的特定事 件类型,若此处没有需要的主题则需先创建 主题并订阅该主题,该功能会调用消息通知 服务(SMN),创建主题并添加订阅请参见 创建主题、添加订阅。
-
快速入门 8 创建告警规则
参数 参数说明 取值样例 触发条件 可以选择“出现告警”、“恢复正常两种状
态,作为触发告警通知的条件。 -
d. 配置完成后,单击“立即创建”,完成告警规则的创建。
告警规则创建完成后,当监控指标触发设定的告警策略时,云监控服务会在 第一时间通过消息通知服务实时告知您云上资源异常,以免因此造成业务损 失。
快速入门 8 创建告警规则