应用场景_应用运维管理 AOM_产品介绍_华为云

(1)

产品介绍

文档版本 01

发布日期 2022-02-17

(2)

非经本公司书面许可，任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部，并不得以任何形式传播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标，由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束，本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定，华为公司对本文档内容不做任何明示或暗示的声明或保证。

由于产品版本升级或其他原因，本文档内容会不定期进行更新。除非另有约定，本文档仅作为使用指导，本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

(3)

1 ^{什么是应用运维管理}

运维遇到挑战

随着容器技术的普及，越来越多的企业通过微服务框架开发应用，业务实现更多使用云上服务，运维也转向云上的运维服务。对于云上应用的运维也提出了新的挑战。

图1-1 运维现有问题

● 运维人员技能要求高，配置繁杂，同时需要维护多套系统。对于分布式追踪系统，学习和使用成本高，并且稳定性差。

● 云化场景下的分布式应用问题分析困难主要表现在如何可视化微服务间的依赖关系、如何提高应用性能体验、如何将散落的日志进行关联分析、如何快速追踪问题。

AOM 帮您解决

图1-2 一站式运维平台

(5)

应用运维管理（Application Operations Management，简称AOM）是云上应用的一站式立体化运维管理平台，实时监控您的应用及相关云资源，分析应用健康状态，提供灵活丰富的数据可视化功能，帮助您及时发现故障，全面掌握应用、资源及业务的实时运行状况。

AOM 有哪些优势

图1-3 AOM 优势 1

图1-4 AOM 优势 2

● 海量日志管理

高性能搜索和业务分析，自动将关联的日志聚类，可按应用、主机、文件名称、

实例等维度快速过滤。

● 关联分析

应用和资源层层自动关联，通过应用、组件、实例、主机和事务等多视角分析关联指标和告警数据，直击异常。

● 生态开放

开放了运营、运维数据查询接口和采集标准，支持自主开发。

(6)

2 ^产品架构

AOM是一个以资源数据为中心并关联日志、指标、资源、告警和事件等数据的立体运维服务。AOM从架构上主要分为数据采集接入层、传输存储层和业务计算层。

采用三层架构

● 数据采集接入层 – ICAgent采集数据

给主机安装ICAgent（插件式的数据采集器）并通过ICAgent上报相关的运维数据。

– API接入数据

通过AOM提供的OpenAPI接口或者Exporter接口，将业务指标作为自定义指标，接入到AOM。

● 传输存储层

– 数据传输：AOM Access是用来接收运维数据的代理服务，运维数据接收上来之后，会将数据投放到Kafka队列中，利用Kafka高吞吐的能力，实时将数据传输给业务计算层。

– 数据存储：运维数据经过AOM后端服务的处理，将数据写入到数据库中，其中Cassandra用来存储时序的指标数据，Redis用来查询缓存，ETCD用来存储 AOM的配置数据，ElasticSearch用来存储资源、日志、告警和事件。

● 业务计算层

AOM提供告警、日志、监控、指标等基础运维服务，同时也提供异常检测与分析等AI服务。

(7)

3 ^产品功能

应用监控

应用监控是针对资源和应用的监控，通过应用监控您可以及时了解应用的资源使用情况、趋势和告警，使用这些信息，您可以快速响应，保证应用流畅运行。

应用监控是逐层下钻设计，层次关系为：应用列表->应用详情->组件详情->实例详情-

>容器详情->进程详情。即在应用监控中，将应用、组件、实例、容器、进程做了层层关联，在界面上就可以直接得知各层关系。

主机监控

主机监控是针对主机的监控，通过主机监控您可以及时了解主机的资源使用情况、趋势和告警，使用这些信息，您可以快速响应，保证主机流畅运行。

主机监控的设计类似应用监控，主机的层级关系为：主机列表->主机详情。详情页面包含了当前主机上所发现的所有实例，显卡，网卡，磁盘，文件系统。

应用自动发现

您在主机上部署应用后，在主机上安装的ICAgent将自动收集应用信息，包括进程名称，组件名称，容器名称，Kubernetes pod名称等，自动发现的应用在界面上以图形化方式展示，支持您自定义别名和分组对资源进行管理。

仪表盘

通过仪表盘可将不同图表展示到同一个屏幕上，通过不同的仪表形式来展示资源数据，例如，曲线图、数字图、TopN图表等，进而全面、深入地掌握监控数据。

例如，可将重要资源的关键指标添加到仪表盘中，从而实时地进行监控。还可将不同资源的同一指标展示到同一个图形界面上进行对比。另外，对于例行运维需要查看的指标，可添加到仪表盘中，以便再次打开AOM时无需重新选择指标就可进行例行检查任务。

告警列表

告警列表是告警和事件的管理平台，支持自定义通知动作，即您可通过邮件、短信等方式获得告警信息，可帮您在第一时间发现异常及其根因。除华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州和华南-深圳以外的其他区域，对于重点资源的指标您可以创建阈值规则，华北-北京一、华北-北京四、华东-上海一、华东-上海

(8)

二、华南-广州和华南-深圳区域，对于重点资源的指标您可以创建告警规则，当指标数据满足阈值条件时，AOM会产生阈值告警。

日志管理

AOM提供强大的日志管理能力。日志检索功能可帮您快速在海量日志中查询到所需的日志；日志转储帮您实现长期存储；通过创建日志统计规则实现关键词周期性统计，

并生成指标数据，实时了解系统性能及业务等信息；通过配置分词可将日志内容按照分词符切分为多个单词，在日志搜索时可使用切分后的单词进行搜索。

(9)

4 ^应用场景

AOM应用广泛，下面介绍AOM的两个典型应用场景，以便您深入了解。

巡检与问题定界

日常运维中，遇到异常难定位、日志难获取等问题，需要一个监控平台对资源、日志、应用性能进行全方位的监控。

AOM深度对接应用服务，一站式收集基础设施、中间件和应用实例的运维数据，通过指标监控、日志分析、事件报警等功能，支持日常巡检资源、应用整体运行情况，及时发现并定界应用与资源的问题。

优势

● 应用自动发现：自动部署采集器，针对应用的运行环境，主动发现应用并进行监控。

● 跨云服务的分布式应用监控：对于同时使用了多种云服务的分布式应用，提供统一的运维平台，便于您对业务进行立体排查。

● 事件告警灵活通知：提供多种异常检测策略并支持丰富的异常事件触发方式及 API。

(10)

图4-1 巡检与问题定界

立体化运维

您需全方位掌控系统的运行状态，并快速响应各类问题。

AOM提供从云平台到资源，再到应用的监控和微服务调用链的立体化运维分析能力。

优势

● 体验保障：实时掌控业务KPI健康状态，对异常事务根因分析。

● 故障快速诊断：分布式调用追踪，快速找到异常故障点。

● 资源运行保障：实时监控容器、磁盘、网络等上百种资源运维指标集群->虚机->

应用->容器异常关联分析。

(11)

图4-2 立体化运维

(12)

5 ^指标总览

5.1 简介

指标是对资源性能的数据描述或状态描述，指标由命名空间、维度、指标名称和单位组成。指标分为系统指标和自定义指标。

● 系统指标：AOM提供的基础指标，例如：CPU使用率、CPU内核占用等。

● 自定义指标：您自己定义的指标。可参考如下两种方式上报自定义指标。

– 方式一：通过AOM提供的接口上报自定义指标，接口详见添加监控数据和查询监控数据。

– 方式二：在CCE创建容器应用时，通过对接普罗米修斯上报自定义指标，详细内容请参见对接普罗米修斯（自定义监控）。

指标命名空间

指标命名空间是对一组资源和对象产生的指标的抽象整合，不同命名空间中的指标彼此独立，因此来自不同应用程序的指标不会被错误地汇聚到相同的统计信息中。

● 系统指标的命名空间：命名空间是固定不变的，均以“PAAS.”开头，如表5-1所示。

表5-1 系统指标命名空间 命名空间名称说明

PAAS.AGGR 集群指标的命名空间。

PAAS.NODE 主机指标、网络指标、磁盘指标和文件系统指标的命名空间。

PAAS.CONTA

INER 组件指标、实例指标、进程指标和容器指标的命名空间。

PAAS.SLA SLA指标的命名空间。

● 自定义指标的命名空间：需要您自定义，自定义时命名空间必须以字母开头，但不能以“PAAS.”、“SYS.”和“SRE.”开头，且以0～9、a～z、A～Z或下划线

（_）组成的格式为XX.XX的3~32位字符串。

(13)

指标维度

维度是指标的分类。每个指标都包含用于描述该指标的特定特征，可以将维度理解为这些特征的类别。

● 系统指标维度：维度是固定不变的，不同类型的指标维度不同，维度信息请分别参见后续章节。

● 自定义指标维度：维度为1~32位的字符串，需要您自定义。

5.2 网络指标及其维度

表5-2 网络指标

指标名称指标含义取值范

围

单位

下行Bps

（recvBytesRate）该指标用于统计测试对象的入方向网络

流速。 ≥0 字节/秒（Bytes/

Second）

下行Pps

（recvPackRate）每秒网卡接收的数据包个数。 ≥0 个/秒（Packets/

Second）

下行错包率

（recvErrPackRate）每秒网卡接收的错误包个数。 ≥0 个/秒（Packets/

Second）

上行Bps

（sendBytesRate）该指标用于统计测试对象的出方向网络

Second）

上行错包率

（sendErrPackRate）每秒网卡发送的错误包个数。 ≥0 个/秒（Packets/

Second）

上行Pps

（sendPackRate）每秒网卡发送的数据包个数。 ≥0 个/秒（Packets/

Second）

总Bps（totalBytesRate）该指标用于统计测试对象出方向和入方向的网络流速之和。

≥0 字节/秒（Bytes/

Second）

表5-3 网络指标维度

维度说明

clusterId 集群ID。

hostID 主机ID。

nameSpace 集群的命名空间。

netDevice 网卡名称。

nodeIP 主机IP。

nodeName 主机名称。

(14)

5.3 磁盘指标及其维度

表5-4 磁盘指标

围单位

磁盘读取速率

（diskReadRate）该指标用于统计每秒从磁盘读出的数据

量。 ≥0 千字节/秒（Kilobytes/

Second）

磁盘写入速率

（diskWriteRate）该指标用于统计每秒写入磁盘的数据

Second）

表5-5 磁盘指标维度

维度说明

diskDevice 磁盘名称。

hostID 主机ID。

nodeIP 主机IP。

5.4 磁盘分区指标

说明

当主机类型为“CCE”时，可以查看磁盘分区指标，支持的系统为：CentOS 7.x版本、EulerOS 2.5。

表5-6 磁盘分区指标

围

单位

Thin pool 元数据空间使用率

（ aom_host_diskpartition_thinpool _data_percent）

该指标用于统计CCE节点上thinpool元数据空间使用百分比。

≥0 百分比（Percent）

Thin pool 数据空间使用率

（ aom_host_diskpartition_thinpool _metadata_percent）

该指标用于统计CCE节点上thinpool数据空间使用百分比。

(15)

指标名称指标含义取值范围

单位

Thin pool 磁盘分区容量

（ aom_host_diskpartition_total_ca pacity_megabytes）

该指标用于统计CCE节点

上thinpool总空间容量。 ≥0 兆字节（Megabytes）

5.5 文件系统指标及其维度

表5-7 文件系统指标

围

单位

可用磁盘空间

（diskAvailableCapacit y）

还未经使用的磁盘空间。 ≥0 兆字节（Megabytes）

磁盘空间容量

（diskCapacity）总的磁盘空间容量。 ≥0 兆字节（Megabytes）

磁盘读写状态

（diskRWStatus）该指标用于统计主机上磁盘的读写状

态。 0、1

● 0表示读写

● 1表示只读

无

磁盘使用率

（diskUsedRate）已使用的磁盘空间占总的磁盘空间容量百分比。

表5-8 文件系统指标维度

维度说明

clusterName 集群名称。

fileSystem 文件系统。

hostID 主机ID。

mountPoint 挂载点。

(16)

维度说明

nodeIP 主机IP。

5.6 主机指标及其维度

表5-9 主机指标

围

单位

CPU内核总量

（cpuCoreLimit）该指标用于统计测量对象申请的CPU核

总量。 ≥1 核（Core）

CPU内核占用

（cpuCoreUsed）该指标用于统计测量对象已经使用的

CPU核个数。 ≥0 核（Core）

CPU使用率

（cpuUsage）该指标用于统计测量对象的CPU使用

率。 0～

100% 百分比（Percent）

可用物理内存

（freeMem）该指标用于统计测量对象上的尚未被使

用的物理内存。 ≥0 兆字节（Megabytes）

可用虚拟内存

（freeVirMem）该指标用于统计测量对象上的尚未被使用的虚拟内存。

≥0 兆字节（Megabytes）

显存容量（gpuMemCapacity）该指标用于统计测量对象的显存容量。 >0 兆字节（Megabytes）

显存使用率

（gpuMemUsage）该指标用于统计测量对象已使用的显存占显存容量的百分比。

0～100% 百分比（Percent）

显存使用量

（gpuMemUsed）该指标用于统计测量对象已使用的显存。

GPU使用率（gpuUtil）该指标用于统计测量对象的GPU使用

率。 0～

NPU存储容量

（npuMemCapacity）该指标用于统计测量对象的NPU存储容

量。 >0 兆字节（Megabytes）

NPU存储使用率

（npuMemUsage）该指标用于统计测量对象已使用的NPU 存储占NPU存储容量的百分比。 0～

NPU存储使用量

（npuMemUsed）该指标用于统计测量对象已使用的NPU

存储。 ≥0 兆字节（Megabytes）

NPU使用率（npuUtil）该指标用于统计测量对象的NPU使用

率。 0～

NPU温度

（temperature）该指标用于统计NPU的温度。 - 摄氏度（℃）

(17)

单位

物理内存使用率

（memUsedRate）该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0～

主机状态（nodeStatus）该指标用于统计主机状态是否正常。 ● 0表示正常

● 1表示异常

无

NTP偏移量

（ntpOffset）该指标用于统计主机本地时间与NTP服务器时间的偏移量，NTP偏移量越接近于0，主机本地时间与NTP服务器时间越接近。

无毫秒（ms）

NTP服务器状态

（ntpServerStatus）该指标用于统计主机是否成功连接上

NTP服务器。 0、1

● 0表示已连接

● 1表示未连接

无

NTP同步状态

（ntpStatus）该指标用于统计主机本地时间与NTP服

务器时间是否同步。 0、1

● 0表示同步

● 1表示未同步

无

进程数量（processNum）该指标用于统计测量对象上的进程数

量。 ≥0 无

显卡温度（temperature）该指标用于统计显卡的温度。 - 摄氏度（℃）

物理内存容量

（totalMem）该指标用于统计测量申请的物理内存总

量。 ≥0 兆字节（Megabytes）

虚拟内存容量

（totalVirMem）该指标用于统计测量对象上的虚拟内存

总量。 ≥0 兆字节（Megabytes）

虚拟内存使用率

（virMemUsedRate）该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 0～

物理磁盘总容量

（aom_node_phy_disk _total_capacity_megab ytes）

该指标用于统计主机的磁盘总容量。 ≥0 兆字节（Megabytes）

(18)

单位

物理磁盘已使用总容量

（aom_node_physical_

disk_total_used_mega bytes）

该指标用于统计主机已使用的磁盘总容

说明

内存使用率 = （物理内存容量 - 可用物理内存） / 物理内存容量；虚拟内存使用率 = （（物理内存容量 + 虚拟内存总量） - （可用物理内存 + 可用虚拟内存）） / （物理内存容量 + 虚拟内存总量）。

目前创建的虚机默认虚拟内存为0，在未配置虚拟内存的情况下，监控页面内存使用率，虚拟内存使用率相同。

表5-10 主机指标维度

维度说明

gpuName GPU名称。

gpuID GPU ID。

npuName NPU名称。

npuID NPU ID。

hostID 主机ID。

nodeIP 主机IP。

5.7 集群指标及其维度

表5-11 集群指标

围

单位

CPU内核总量

(19)

单位

CPU内核占用

CPU核数。 ≥0 核（Core）

CPU使用率

（cpuUsage）该指标用于统计测量对象的CPU使用

率。 0～

可用磁盘空间

（diskAvailableCapacit y）

磁盘空间容量

（diskCapacity）总的磁盘空间容量。 ≥0 兆字节（Megabytes）

磁盘使用率

（diskUsedRate）已使用的磁盘空间占总的磁盘空间容量

百分比。 ≥0 百分比（Percent）

可用物理内存

（freeMem）该指标用于统计测量对象上的尚未被使

可用虚拟内存

（freeVirMem）该指标用于统计测量对象上的尚未被使用的虚拟内存。

显存使用率

（gpuMemUsage）该指标用于统计测量对象已使用的显存占显存容量的百分比。

显存使用量

（gpuMemUsed）该指标用于统计测量对象已使用的显存。

率。 0～

（memUsedRate）该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0～

下行Bps

（recvBytesRate）该指标用于统计测试对象的入方向网络

Second）

上行Bps

Second）

物理内存容量

（totalMem）该指标用于统计测量申请的物理内存总

虚拟内存容量

（totalVirMem）该指标用于统计测量对象上的虚拟内存

（virMemUsedRate）该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。 0～

(20)

表5-12 集群指标维度

维度说明

projectId ID。

5.8 容器组件指标及其维度

表5-13 容器指标

围

单位

CPU内核总量

（cpuCoreLimit）该指标用于统计测量对象申请的CPU核总量。

≥1 核（Core）

CPU内核占用

CPU使用率

（cpuUsage）该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。

磁盘读取速率

（diskReadRate）该指标用于统计每秒从磁盘读出的数据

Second）

磁盘写入速率

（diskWriteRate）该指标用于统计每秒写入磁盘的数据

Second）

文件系统可用

（filesystemAvailable

）

该指标用于统计测量对象文件系统的可用大小。仅支持1.11及其更高版本的 kubernetes集群中驱动模式为 devicemapper的容器。

文件系统容量

（filesystemCapacity）该指标用于统计测量对象文件系统的容量。仅支持1.11及其更高版本的 kubernetes集群中驱动模式为 devicemapper的容器。

文件系统使用率

（filesystemUsage）该指标用于统计测量对象文件系统使用率。实际使用量与文件系统容量的百分比。仅支持1.11及其更高版本的 kubernetes集群中驱动模式为 devicemapper的容器。

显存使用率

（gpuMemUsage）该指标用于统计测量对象已使用的显存

占显存容量的百分比。 0～

(21)

单位

显存使用量

（gpuMemUsed）该指标用于统计测量对象已使用的显

存。 ≥0 兆字节（Megabytes）

率。 0～

NPU存储容量

（npuMemCapacity）该指标用于统计测量对象的NPU存储容

NPU存储使用率

（npuMemUsage）该指标用于统计测量对象已使用的NPU 存储占NPU存储容量的百分比。 0～

NPU存储使用量

（npuMemUsed）该指标用于统计测量对象已使用的NPU

NPU使用率（npuUtil）该指标用于统计测量对象的NPU使用

率。 0～

物理内存总量

（memCapacity）该指标用于统计测量对象申请的物理内

存总量。 ≥0 兆字节（Megabytes）

（memUsage）该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

物理内存使用量

（memUsed）该指标用于统计测量对象实际已经使用

的物理内存（Resident Set Size）。 ≥0 兆字节（Megabytes）

下行Bps

（recvBytesRate）该指标用于统计测试对象的入方向网络流速。

Second）

下行Pps

（recvPackRate）每秒网卡接收的数据包个数。 ≥0 个/秒（Packets/

Second）

下行错包率

（recvErrPackRate）每秒网卡接收的错误包个数。 ≥0 个/秒（Packets/

Second）

容器错包个数

（rxPackErrors）该指标用于统计测量对象收到错误包的

数量。 ≥0 个（Packets）

上行Bps

Second）

上行错包率

（sendErrPackRate）每秒网卡发送的错误包个数。 ≥0 个/秒（Packets/

Second）

上行Pps

（sendPackRate）每秒网卡发送的数据包个数。 ≥0 个/秒（Packets/

Second）

(22)

单位

状态（status）该指标用于统计Docker容器状态是否正

常。 0、1

● 0表示正常

● 1表示异常

无

表5-14 容器指标维度

维度说明

appID 服务ID。

appName 服务名称。

containerID 容器ID。

containerName 容器名称。

deploymentName k8s Deployment名称。

kind 应用类型。

podID 实例ID。

podName 实例名称。

serviceID 存量ID。

gpuID GPU ID。

npuName NPU名称。

npuID NPU ID。

5.9 虚机组件指标及其维度

AOM中，虚机组件指的是进程，虚机组件指标指的就是进程指标。

(23)

表5-15 进程指标

围

单位

CPU内核总量

CPU内核占用

CPU使用率

（cpuUsage）该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。

句柄数（handleCount）该指标用于统计测量对象使用的句柄

数。 ≥0 无

物理内存总量

（memCapacity）该指标用于统计测量对象申请的物理内存总量。

（memUsage）该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

（memUsed）该指标用于统计测量对象实际已经使用

状态（status）该指标用于统计进程状态是否正常。 0、1

● 0表示正常

● 1表示异常

无

线程数（threadsCount）该指标用于统计测量对象使用的线程

数。 ≥0 无

虚拟内存总量

（virMemCapacity）该指标用于统计测量对象申请的虚拟内

表5-16 进程指标维度

维度说明

processID 进程ID。

(24)

维度说明

processName 进程名称。

serviceID 存量ID。

5.10 实例指标及其维度

实例指标是由容器或进程指标汇聚而来的，其指标维度与容器或进程指标维度相同，

详见容器组件指标及其维度和虚机组件指标及其维度。

5.11 服务指标及其维度

服务指标是由实例指标汇聚而来的，其指标维度与实例指标维度相同，详见实例指标及其维度。

5.12 性能指标及其维度

说明

本章节中的性能指标是AOM为您提供的产品特性，并非AOM本身的服务等级。

表5-17 性能指标

围

单位

成功率（successRate）一个统计周期内所有接口调用的成功比例。

0～100% 百分比（%）

平均时延（tp99） TP99时延=完成99%的网络请求所需要的最短耗时。

举例：假设总请求数为100个，它们的请求耗时分别为1s、2s、3s、4s……

98s、99s、100s。若要完成99%的请求，至少需要99s，故TP99为99s。

计算：将所有请求按照耗时从小到大排序，第（99%*总请求数）个请求的耗时即为TP99时延。

≥0 毫秒（ms）

错误调用次数

（errors）一个统计周期内所有接口调用的失败次数。

≥0 次（Count）

吞吐量（throughput）指定时间内接口调用的总次数。 ≥0 次/分（Transaction/

Minute）

Apdex（apdex）该指标表示应用性能满意度，数值越大表示满意度越高。

0～1 无

(25)

表5-18 性能指标维度

维度说明

appId 应用ID。

monitoringGroup 应用名称。

transactionType 事务类型。

tier 应用层名称。

5.13 Grafana 普罗指标

表5-19 主机指标

指标名称指标含义取值范围单位

下行Bps

（aom_node_network_receive_byte s）

该指标用于统计测试对象的入方向网络流速。

Second）

下行Pps

（aom_node_network_receive_pack ets）

每秒网卡接收的数据包个数。

≥0 个/秒（Packets/

Second）

下行错包率

（aom_node_network_receive_erro r_packets）

每秒网卡接收的错误包个

数。 ≥0 个/秒（Packets/

Second）

上行Bps

（aom_node_network_transmit_byt es）

该指标用于统计测试对象

的出方向网络流速。 ≥0 字节/秒（Bytes/

Second）

上行错包率

（aom_node_network_transmit_err or_packets）

每秒网卡发送的错误包个

Second）

上行Pps

（aom_node_network_transmit_pa ckets）

每秒网卡发送的数据包个

Second）

总Bps（aom_node_network_total_bytes

）

该指标用于统计测试对象出方向和入方向的网络流速之和。

Second）

(26)

指标名称指标含义取值范围单位磁盘读取速率

（aom_node_disk_read_kilobytes）该指标用于统计每秒从磁

盘读出的数据量。 ≥0 千字节/秒

（Kilobytes/

Second）

磁盘写入速率

（aom_node_disk_write_kilobytes

）

该指标用于统计每秒写入

磁盘的数据量。 ≥0 千字节/秒

（Kilobytes/

Second）

可用磁盘空间

（aom_node_disk_available_capaci ty_megabytes）

还未经使用的磁盘空间。 ≥0 兆字节

（Megabytes）

磁盘空间容量

（aom_node_disk_capacity_megab ytes）

总的磁盘空间容量。 ≥0 兆字节

（Megabytes）

磁盘读写状态

（aom_node_disk_rw_status）该指标用于统计主机上磁盘的读写状态。

0、1

● 0表示读写

● 1表示只读

无

磁盘使用率

（aom_node_disk_usage）已使用的磁盘空间占总的磁盘空间容量百分比。

CPU内核总量

（aom_node_cpu_limit_core）该指标用于统计测量对象

申请的CPU核总量。 ≥1 核（Core）

CPU内核占用

（aom_node_cpu_used_core）该指标用于统计测量对象

已经使用的CPU核个数。 ≥0 核（Core）

CPU使用率

（aom_node_cpu_usage）该指标用于统计测量对象

的CPU使用率。 0～100% 百分比（Percent）

可用物理内存

（aom_node_memory_free_megab ytes）

该指标用于统计测量对象上的尚未被使用的物理内存。

≥0 兆字节

（Megabytes）

可用虚拟内存

（aom_node_virtual_memory_free_

megabytes）

该指标用于统计测量对象上的尚未被使用的虚拟内存。

≥0 兆字节

（Megabytes）

显存容量（aom_node_gpu_memory_free_m egabytes）

该指标用于统计测量对象

的显存容量。 >0 兆字节

（Megabytes）

显存使用率

（aom_node_gpu_memory_usage

）

该指标用于统计测量对象已使用的显存占显存容量的百分比。

显存使用量

（aom_node_gpu_memory_used_m egabytes）

该指标用于统计测量对象已使用的显存。

≥0 兆字节

（Megabytes）

(27)

指标名称指标含义取值范围单位 GPU使用率

（aom_node_gpu_usage）该指标用于统计测量对象

的GPU使用率。 0～100% 百分比（Percent）

NPU存储容量

（aom_node_npu_memory_free_m egabytes）

的NPU存储容量。 >0 兆字节

（Megabytes）

NPU存储使用率

（aom_node_npu_memory_usage

）

该指标用于统计测量对象已使用的NPU存储占NPU 存储容量的百分比。

NPU存储使用量

（aom_node_npu_memory_used_

megabytes）

已使用的NPU存储。 ≥0 兆字节

（Megabytes）

NPU使用率

（aom_node_npu_usage）该指标用于统计测量对象

的NPU使用率。 0～100% 百分比（Percent）

NPU温度

（aom_node_npu_temperature_cen tigrade）

该指标用于统计NPU的温度。

- 摄氏度（℃）

（aom_node_memory_usage）该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

主机状态（aom_node_status）该指标用于统计主机状态

是否正常。 ● 0表示正

常

● 非0表示异常

无

NTP偏移量

（aom_node_ntp_offset_ms）该指标用于统计主机本地时间与NTP服务器时间的偏移量，NTP偏移量越接近于0，主机本地时间与 NTP服务器时间越接近。

无毫秒（ms）

NTP服务器状态

（aom_node_ntp_server_status）该指标用于统计主机是否

成功连接上NTP服务器。 ● 0、10表示已连接

● 1表示未连接

无

NTP同步状态

（aom_node_ntp_status）该指标用于统计主机本地时间与NTP服务器时间是否同步。

● 0、10表示同步

● 1表示未同步

无

进程数量（aom_node_process_number）该指标用于统计测量对象

上的进程数量。 ≥0 无

显卡温度（aom_node_gpu_temperature_cen tigrade）

该指标用于统计显卡的温

度。 - 摄氏度（℃）

(28)

指标名称指标含义取值范围单位物理内存容量

（aom_node_memory_total_mega bytes）

该指标用于统计测量申请

的物理内存总量。 ≥0 兆字节

（Megabytes）

虚拟内存容量

（aom_node_virtual_memory_total _megabytes）

上的虚拟内存总量。 ≥0 兆字节

（Megabytes）

（aom_node_virtual_memory_usag e）

该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。

表5-20 容器指标

围

单位

CPU内核总量

（aom_container_cpu_

limit_core）

该指标用于统计测量对象申请的CPU核

CPU内核占用

used_core）

该指标用于统计测量对象已经使用的

CPU使用率

usage）

该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。

磁盘读取速率

（aom_container_disk _read_kilobytes）

该指标用于统计每秒从磁盘读出的数据

Second）

磁盘写入速率

（aom_container_disk _write_kilobytes）

该指标用于统计每秒写入磁盘的数据

Second）

文件系统可用

（aom_container_files ystem_available_capac ity_megabytes）

该指标用于统计测量对象文件系统的可用大小。仅支持1.11及其更高版本的 kubernetes集群中驱动模式为 devicemapper的容器。

文件系统容量

（aom_container_files ystem_capacity_mega bytes）

该指标用于统计测量对象文件系统的容量。仅支持1.11及其更高版本的 kubernetes集群中驱动模式为 devicemapper的容器。

文件系统使用率

（aom_container_files ystem_usage）

该指标用于统计测量对象文件系统使用率。实际使用量与文件系统容量的百分比。仅支持1.11及其更高版本的 kubernetes集群中驱动模式为 devicemapper的容器。

(29)

单位

显存容量（aom_container_gpu_

memory_free_megaby tes）

该指标用于统计测量对象的显存容量。 >0 兆字节（Megabytes）

显存使用率

（aom_container_gpu_

memory_usage）

该指标用于统计测量对象已使用的显存

占显存容量的百分比。 0～

显存使用量

memory_used_megaby tes）

该指标用于统计测量对象已使用的显

存。 ≥0 兆字节（Megabytes）

GPU使用率

usage）

该指标用于统计测量对象的GPU使用率。

NPU存储容量

（aom_container_npu_

该指标用于统计测量对象的NPU存储容

NPU存储使用率

memory_usage）

该指标用于统计测量对象已使用的NPU 存储占NPU存储容量的百分比。 0～

NPU存储使用量

memory_used_megaby tes）

该指标用于统计测量对象已使用的NPU

NPU使用率

usage）

该指标用于统计测量对象的NPU使用率。

物理内存总量

（aom_container_me mory_request_megaby tes）

该指标用于统计测量对象申请的物理内

（aom_container_me mory_usage）

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0～

（aom_container_me mory_used_megabytes

）

该指标用于统计测量对象实际已经使用

下行Bps

（aom_container_net work_receive_bytes）

该指标用于统计测试对象的入方向网络流速。

Second）

(30)

单位

下行Pps

（aom_container_net work_receive_packets

）

每秒网卡接收的数据包个数。 ≥0 个/秒（Packets/

Second）

下行错包率

（aom_container_net work_receive_error_pa ckets）

每秒网卡接收的错误包个数。 ≥0 个/秒（Packets/

Second）

容器错包个数

（aom_container_net work_rx_error_packets

）

该指标用于统计测量对象收到错误包的数量。

≥0 个（Packets）

上行Bps

（aom_container_net work_transmit_bytes）

该指标用于统计测试对象的出方向网络

Second）

上行错包率

（aom_container_net work_transmit_error_p ackets）

每秒网卡发送的错误包个数。 ≥0 个/秒（Packets/

Second）

上行Pps

（aom_container_net work_transmit_packets

）

每秒网卡发送的数据包个数。 ≥0 个/秒（Packets/

Second）

容器状态（aom_container_stat us）

该指标用于统计Docker容器状态是否正

常。 ● 0、

10表示正常

● 1表示异常

无

表5-21 进程指标

围

单位

CPU内核总量

（aom_process_cpu_li mit_core）

CPU内核占用

（aom_process_cpu_us ed_core）

(31)

单位

CPU使用率

（aom_process_cpu_us age）

该指标用于统计测量对象的CPU使用率。服务实际使用的与申请的CPU核数量比率。

句柄数（aom_process_handle _count）

该指标用于统计测量对象使用的句柄

数。 ≥0 无

物理内存总量

（aom_process_memo ry_request_megabytes

）

该指标用于统计测量对象申请的物理内

（aom_process_memo ry_usage）

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。

（aom_process_memo ry_used_megabytes）

该指标用于统计测量对象实际已经使用

进程状态（aom_process_status

）

该指标用于统计进程状态是否正常。 ● 0、

10表示正常

● 1表示异常

无

线程数（aom_process_thread _count）

该指标用于统计测量对象使用的线程

数。 ≥0 无

虚拟内存总量

（aom_process_virtual _memory_total_megab ytes）

该指标用于统计测量对象申请的虚拟内

表5-22 集群指标

围

单位

CPU内核总量

（aom_cluster_cpu_li mit_core）

CPU内核占用

（aom_cluster_cpu_us ed_core）

CPU核数。 ≥0 核（Core）

(32)

单位

CPU使用率

（aom_cluster_cpu_us age）

该指标用于统计测量对象的CPU使用

率。 0～

可用磁盘空间

（aom_cluster_disk_av ailable_capacity_mega bytes）

磁盘空间容量

（aom_cluster_disk_ca pacity_megabytes）

总的磁盘空间容量。 ≥0 兆字节（Megabytes）

磁盘使用率

（aom_cluster_disk_us age）

已使用的磁盘空间占总的磁盘空间容量百分比。

可用物理内存

（aom_cluster_memor y_free_megabytes）

该指标用于统计测量对象上的尚未被使

可用虚拟内存

（aom_cluster_virtual_

该指标用于统计测量对象上的尚未被使

用的虚拟内存。 ≥0 兆字节（Megabytes）

显存容量（aom_cluster_gpu_m emory_free_megabyte s）

该指标用于统计测量对象的显存容量。 >0 兆字节（Megabytes）

显存使用率

（aom_cluster_gpu_m emory_usage）

该指标用于统计测量对象已使用的显存占显存容量的百分比。

显存使用量

（aom_cluster_gpu_m emory_used_megabyte s）

该指标用于统计测量对象已使用的显存。

GPU使用率

（aom_cluster_gpu_us age）

该指标用于统计测量对象的GPU使用

率。 0～

（aom_cluster_memor y_usage）

该指标用于统计测量对象已使用内存占申请物理内存总量的百分比。 0～

下行Bps

（aom_cluster_networ k_receive_bytes）

该指标用于统计测试对象的入方向网络

Second）

(33)

单位

上行Bps

（aom_cluster_networ k_transmit_bytes）

该指标用于统计测试对象的出方向网络

Second）

物理内存容量

（aom_cluster_memor y_total_megabytes）

该指标用于统计测量申请的物理内存总

虚拟内存容量

memory_total_megab ytes）

该指标用于统计测量对象上的虚拟内存

memory_usage）

该指标用于统计测量对象已使用虚拟内存占虚拟内存总量的百分比。

表5-23 APM 指标

围

单位

成功率（aom_sla_success_rat e）

一个统计周期内所有接口调用的成功比

例。 0～

100% 百分比（%）

平均时延（aom_sla_tp99） TP99时延=完成99%的网络请求所需要的最短耗时。

举例：假设总请求数为100个，它们的请求耗时分别为1s、2s、3s、4s……

98s、99s、100s。若要完成99%的请求，至少需要99s，故TP99为99s。

计算：将所有请求按照耗时从小到大排序，第（99%*总请求数）个请求的耗时即为TP99时延。

≥0 毫秒（ms）

错误调用次数

（aom_sla_error_count

）

一个统计周期内所有接口调用的失败次

数。 ≥0 次（Count）

吞吐量（aom_sla_throughput

）

指定时间内接口调用的总次数。 ≥0 次/分（Transaction/

Minute）

Apdex

（aom_sla_apdex）该指标表示应用性能满意度，数值越大

表示满意度越高。 0～1 无

(34)

表5-24 其他指标

围

单位

主机数量（aom_billing_hostUse d）

一天内接入的主机数量。 ≥0 无

(35)

6 ^{约束与限制}

操作系统使用限制

AOM支持多个操作系统，在购买主机时您需选择AOM支持的操作系统，详见表6-1，

否则无法使用AOM对主机进行监控。

表6-1 AOM 支持的操作系统及版本 操作系

统

版本

SUSE SUSE Enterprise 11 SP4 64bit

SUSEEnterprise 12 SP1 64bit

SUSEEnter prise 12SP2 64bit

SUSE Enterprise 12 SP3 64bit

OpenSU

SE 13.2 64bit 42.2 64bit 15.0 64bit（该版本暂不支持syslog日志采集）

EulerOS 2.2 64bit 2.3 64bit 2.5 64bit CentOS 6.3 64bit 6.5 64bit 6.8

64bit 6.9 64bit 6.10 64bit 7.1 64bit 7.2 64bit 7.3

64bit 7.4 64bit 7.5 64bit 7.6 64bit Ubuntu 14.04

server 64bit

16.04 server

64bit 18.04 server 64bit

Fedora 24 64bit 25 64bit 29 64bit Debian 7.5.0 32bit 7.5.0 64bit 8.2.0

64bit 8.8.0

64bit 9.0.0 64bit

(36)

说明

● 对于Linux x86_64服务器，AOM支持上表中所有的操作系统及版本。

● 对于Linux ARM服务器，CentOS操作系统仅支持7.4 及其以上版本，上表所列的其他操作系统对应版本均支持。

资源使用限制

在使用AOM时，您需注意以下使用限制，详见表6-2。使用限制中部分内容属于配额，关于什么是配额以及怎样查看与修改配额，详见关于配额。

表6-2 资源使用限制

分类对象使用限制

仪表盘仪表盘 1个区域中最多可创建50个仪表盘。

仪表盘中的图

表 1个仪表盘中最多可添加20个图表。

仪表盘中图表可选资源、阈值规则、组件或主机的个数

● 1个曲线图中最多可添加100个资源，且资源可跨集群选择。

● 1个数字图只能添加1个资源。

● 1个阈值状态图表最多可添加10个阈值规则。

● 1个主机状态图表最多可添加10个主机。

● 1个组件状态图表最多可添加10个组件。

指标指标数据 ● 基础规格：指标数据在数据库中最多保存7 天。

● 专业规格：指标数据在数据库中最多保存30 天。

指标项资源（例如，集群、组件、主机等）被删除后，

其关联的指标项在数据库中最多保存30天。

维度每个指标的维度最多为20个。

指标查询接口单次最大可同时查询20个指标。

统计周期最大统计周期为1小时。

单次查询返回

指标数据单个指标单次查询最大返回1440个数据点。

自定义指标无限制。

上报自定义指

标单次请求数据最大不能超过40KB，上报指标所带时间戳不能超前于标准UTC时间10分钟，不接收乱序指标，即有新指标上报后，旧指标上报将会失败。

(37)

分类对象使用限制应用指标

JOB指标

● 每个主机的容器个数超过1000个时，ICAgent 将停止采集该主机应用指标，并发送

“ICAgent停止采集应用指标”告警（告警 ID：34105）。

● 每个主机的容器个数缩减到1000个以内时，

ICAgent将恢复该主机应用指标采集，并清除

“ICAgent停止采集应用指标”告警。由于JOB在完成任务之后，会自动退出。如果您需要监控JOB指标，要保证存活时间大于90秒才能采集到指标数据。

采集器资源消耗

采集器在采集基础指标时的资源消耗情况和容器、进程数等因素有关，在未运行任何业务的VM 上，采集器将消耗30M内存、1% CPU。为保证采集可靠性，单节点上运行的容器个数应小于 1000。

阈值规则

（除华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州和华南-深圳区域外的其他区域）

阈值规则一个项目下最多可创建1000个阈值规则。

发送通知可选

择主题数每个阈值规则最多可选择5个主题。

告警规则

（华北-北京一、华北-北京四、华东-上海一、华东-上海二、华南-广州和华南-深圳区域）

告警规则告警规则（包含静态阈值规则和事件类告警规则）最多可创建1000个。

阈值模板静态模板最多可创建50个。

通知规则（除华北-北京一、

华北-北京四、

华东-上海一、

华东-上海二、

华南-广州和华南-深圳外的其他区域）

发送通知可选

择主题数每个通知规则最多可选择5个主题。

日志单条日志大小每条日志最大10KB，超出后ICAgent将不会采集该条日志，即该条日志会被丢弃。

(38)

分类对象使用限制

日志流量每个租户在每个Region的日志流量不能超过 10MB/s。如果超过10MB/s，则可能导致日志丢失。

如果您有更多的日志流量需求，请提交工单处理，操作详见如何提交工单。

日志文件只支持采集文本类型日志文件，不支持采集其他类型日志文件（例如二进制文件）。

每个通过卷挂载日志的路径下，ICAgent最多采集 20个日志文件。

每个ICAgent最多采集1000个容器标准输出日志文件，容器标准输出日志只支持json-file类型。

采集日志文件的资源消耗

日志文件采集采集时消耗的资源和日志量、文件个数及网络带宽、backend服务处理能力等多种因素强相关。

日志丢失采集器使用多种机制保证日志采集的可靠性，尽可能保证数据不丢失，但在如下场景可能导致日志丢失。

● 日志文件未使用CCE提供的logPolicy轮转策略。

● 日志文件轮转速度过快，如1秒轮转一次。

● 系统安全设置或syslog自身原因导致无法转发日志。

● 容器运行时间过短，例如小于30s。

● 单节点总日志产生速度过快，超过了单节点网络发送带宽或日志采集速度，建议单节点总日志产生速度<5M/s。

日志丢弃当单行日志长度超过10240字节时，此行会被丢弃。

日志重复当采集器被重启后，重启时间点附近可能会产生一定的数据重复。

日志统计规则一个日志桶下最多可创建5条统计规则。

历史日志日志数据存储时长与您选择的版本有关，且收费不同，详见价格详情。

告警中心告警您最多可查询最近30天的告警。

事件您最多可查询最近30天的事件。

服务使用限制

在使用AOM时，当AMS-Access服务出现断电、或者异常重启的时候，部分主机、组件、容器等资源会出现一个采集周期的指标数据断点，该数据断点对于用户来讲监控

(39)

页面上能看到一个断点，没有其他影响。如果对断点有要求，可以在“监控”->“指标浏览”页面中查看指标曲线时，将插值方式设置为0或者average，系统会自动补点，如图1 所示

图6-1 插值方式修改

(40)

7 隐私与敏感信息保护声明

由于AOM会将运维数据内容展示到AOM控制台，请您在使用过程中，注意您的隐私及敏感信息数据保护，不建议将隐私或敏感数据上传到AOM，必要时请加密保护。

采集器部署

在弹性云服务器 ECS上手动部署ICAgent过程中，安装命令中会使用到您的AK/SK作为输入参数，安装前请您关闭系统的历史纪录收集，以免泄露隐私。安装后ICAgent会加密存储您的AKSK，有效保护敏感信息。

容器监控

在CCE容器监控场景下，AOM的采集器（ICAgent）必须以特权容器的方式运行，请合理的评估特权容器的安全风险，谨慎识别您的容器业务场景。如：节点对外提供的业务属于逻辑多租的共享容器方式，建议采用开源Prometheus等工具进行监控，避免使用AOM的采集器监控您的业务。

(41)

8 ^{与其他服务的关系}

AOM可与消息通知服务、分布式消息服务、云审计等服务配合使用。例如，通过消息通知服务您可将AOM的阈值规则状态变更信息通过短信或电子邮件的方式发送给相关人员。同时AOM对接了虚拟私有云、弹性负载均衡等中间件服务，通过AOM您可对这些中间件服务进行监控。AOM还对接了云容器引擎、云容器实例等服务，通过AOM您可对这些服务的基础资源和应用进行监控，并且还可查看相关的日志和告警。

图8-1 AOM 与其他服务关系图

消息通知服务

消息通知服务（Simple Message Notification，简称SMN）可以依据您的需求主动推送通知消息，最终您可以通过短信、电子邮件、应用等方式接收通知信息。您也可以在应用之间通过消息通知服务实现应用的功能集成，降低系统的复杂性。

(42)

AOM使用SMN提供的消息发送机制，当您因不在现场而无法通过AOM查询阈值规则状态的变更信息时，能及时将该变更信息以邮件或短信的方式发送给相关人员，以便您及时获取资源运行状态等信息并采取相应措施，避免因资源问题造成业务损失。详细内容请参见创建静态阈值规则。

对象存储服务

对象存储服务（Object Storage Service，简称OBS）是一个基于对象的海量存储服务，为客户提供海量、安全、高可靠、低成本的数据存储能力，包括：创建、修改、

删除桶，上传、下载、删除对象等。

AOM支持将日志转储到OBS的桶中，以便长期存储。详细内容请参见添加日志转储。

云审计服务

云审计服务（Cloud Trace Service，简称CTS）为您提供云账户下资源的操作记录，通过操作记录您可以实现安全分析、资源变更、合规审计、问题定位等场景。您可以通过配置OBS对象存储服务，将操作记录实时同步保存至OBS，以便保存更长时间的操作记录。

通过CTS您可记录与AOM相关的操作，便于日后的查询、审计和回溯。CTS记录AOM 的相关操作详见应用运维管理的关键操作列表。

统一身份认证服务

统一身份认证服务（Identity and Access Management，简称IAM）是提供身份认证、权限分配、访问控制等功能的身份管理服务。

通过IAM可对AOM进行认证鉴权及细粒度授权。

云监控服务

云监控服务（Cloud Eye）为您提供一个针对弹性云服务器、带宽等资源的立体化监控平台。使您全面了解云上的资源使用情况、业务的运行状况，并及时收到异常告警做出反应，保证业务顺畅运行。

AOM通过调用云监控服务的接口来获取弹性负载均衡服务、虚拟私有云服务、关系型数据库服务和分布式缓存服务的监控数据，并展现在AOM界面，以便在AOM界面统一对这些服务进行监控。

应用性能管理服务

应用性能管理服务（Application Performance Management，简称APM）是实时监控并管理云应用性能和故障的云服务，提供专业的分布式应用性能分析能力，可以帮助运维人员快速解决应用在分布式架构下的问题定位和性能瓶颈等难题，为您的体验保驾护航。

为了更好的监控、管理应用，AOM集成了APM的相关功能。

虚拟私有云服务

虚拟私有云服务（Virtual Private Cloud，简称VPC）为弹性云服务器构建隔离的、您自主配置和管理的虚拟网络环境，提升您云中资源的安全性，简化您的网络部署。

当您开通了VPC后，无需额外安装其他插件，即可在AOM界面监控VPC的运行状态及各种指标。

(43)

弹性负载均衡服务

弹性负载均衡服务（Elastic Load Balance，简称ELB）是将访问流量根据转发策略分发到后端多台云服务器流量分发控制服务。弹性负载均衡可以通过流量分发扩展应用系统对外的服务能力，通过消除单点故障提升应用系统的可用性。

当您开通了ELB后，无需额外安装其他插件，即可在AOM界面监控ELB的运行状态及各种指标。

关系型数据库服务

关系型数据库服务（Relational Database Service，简称RDS）是一种基于云计算平台的即开即用、稳定可靠、弹性伸缩、便捷管理的在线关系型数据库服务。

当您开通了RDS后，无需额外安装其他插件，即可在AOM界面监控RDS的运行状态及各种指标。

分布式缓存服务

分布式缓存服务（Distributed Cache Service，简称DCS）是华为云提供的一款内存数据库服务，兼容了Redis、Memcached和内存数据网格三种内存数据库引擎，为您提供即开即用、安全可靠、弹性扩容、便捷管理的在线分布式缓存能力，满足高并发及数据快速访问的业务诉求。

当您开通了DCS后，无需额外安装其他插件，即可在AOM界面监控DCS的运行状态及各种指标。

云容器引擎服务

云容器引擎服务（Cloud Container Engine，简称CCE）是提供高性能可扩展的容器服务，基于云服务器快速构建高可靠的容器集群，深度整合网络和存储能力，兼容 Kubernetes及Docker容器生态。帮助您轻松创建和管理多样化的容器工作负载，并提供容器故障自愈，监控日志采集，自动弹性扩容等高效运维能力。

通过AOM界面您可监控CCE的基础资源和运行在其上的应用，同时在AOM界面还可查看相关的日志和告警。

云容器实例服务

云容器实例服务（Cloud Container Instance，简称CCI）提供 Serverless Container

（无服务器容器）引擎，让您无需创建和管理服务器集群即可直接运行容器。

通过AOM界面您可监控CCI的基础资源和运行在其上的应用，同时在AOM界面还可查看相关的日志和告警。

应用编排服务

应用编排服务（Application Orchestration Service，简称AOS）通过图形化设计器，

直观便捷的进行云服务资源开通和应用部署，将复杂的云服务资源配置和应用部署配置通过模板描述，从而实现一键式云资源与应用的开通与复制；同时在示例模板中提供了海量的免费应用模板，覆盖各热点云服务应用场景，方便您直接使用或为您设计个性化模板提供参考。

通过AOM界面您可监控AOS的基础资源和运行在其上的应用，同时在AOM界面还可查看相关的日志和告警。

(44)

应用管理与运维平台

应用管理与运维平台（ServiceStage）是面向企业的一站式PaaS平台服务，提供应用云上托管解决方案，帮助企业简化部署、监控、运维和治理等应用生命周期管理问题；提供微服务框架，兼容主流开源生态，不绑定特定开发框架和平台，帮助企业快速构建基于微服务架构的分布式应用。

通过AOM界面您可监控ServiceStage的基础资源和运行在其上的应用，同时在AOM界面还可查看相关的日志和告警。

函数工作流服务

函数工作流服务（FunctionGraph）是华为云提供的一款无服务器（Serverless）计算服务，无服务器计算是一种托管服务，服务提供商会实时为你分配充足的资源，而不需要预留专用的服务器或容量，真正按实际使用付费。

通过AOM界面您可监控FunctionGraph的基础资源和运行在其上的应用，同时在AOM 界面还可查看相关的日志和告警。

智能边缘平台

智能边缘平台（Intelligent EdgeFabric，简称IEF）通过纳管您的边缘节点，提供将云上应用延伸到边缘的能力，联动边缘和云端的数据，满足客户对边缘计算资源的远程管控、数据处理、分析决策、智能化的诉求，同时，在云端提供统一的设备/应用监控、日志采集等运维能力，为企业提供完整的边缘和云协同的一体化服务的边缘计算解决方案。

AOM提供对IEF资源的运维能力，无需额外安装其他插件，通过AOM您可监控IEF的资源（例如：边缘节点、应用、函数），同时在AOM还可以查看IEF资源的日志和告警

弹性云服务器

弹性云服务器Elastic Cloud Server，简称ECS）是由CPU、内存、镜像、云硬盘组成的一种可随时获取、弹性可扩展的计算服务器，同时它结合虚拟私有云、虚拟防火墙、

数据多副本保存等能力，为您打造一个高效、可靠、安全的计算环境，确保您的服务持久稳定运行。弹性云服务器创建成功后，您就可以像使用自己的本地PC或物理服务器一样，在云上使用弹性云服务器。

您购买了弹性云服务器（弹性云服务器操作系统需满足表1 AOM支持的操作系统及版本中的使用限制，且购买后需要给弹性云服务器安装ICAgent，否则无法使用AOM监控）后，在AOM界面可对弹性云服务器的基础资源和运行在其上的应用进行监控，同时在AOM界面还可查看相关的日志和告警。

裸金属服务器

裸金属服务器（Bare Metal Server，简称BMS）为您和您的企业提供专属的云上物理服务器，为核心数据库、关键应用系统、高性能计算、大数据等业务提供卓越的计算性能以及数据安全，结合云中资源的弹性优势，租户可灵活申请，按需使用。

您购买了裸金属服务器（裸金属服务器操作系统需满足表1 AOM支持的操作系统及版本中的使用限制，且购买后需要给裸金属服务器安装ICAgent，否则无法使用AOM监控）后，在AOM界面可对裸金属服务器的基础资源和运行在其上的应用进行监控，同时在AOM界面还可查看相关的日志和告警。

(45)

9 ^基本概念

指标

指标是对资源性能的数据描述或状态描述，指标由命名空间、维度、指标名称和单位组成。

其中，命名空间特指指标的命名空间，可将其理解为存放指标的容器，不同命名空间中的指标彼此独立，因此来自不同应用程序的指标不会被错误地聚合到相同的统计信息中。维度是指标的分类，每个指标都包含用于描述该指标的特定特征，可以将维度理解为这些特征的类别。图9-1以集群指标为例，介绍了命名空间、维度和指标的关系。

图9-1 集群指标

AOM的基础版和按需版所对应的指标存储时长及计费方式不同，详见收费详情。

主机

AOM的每一台主机对应一台虚拟机或物理机。主机可以是您自己的虚拟机或物理机，

也可以是您通过华为云购买的虚拟机（例如：弹性云服务器，简称ECS）或物理机（例如：裸金属服务器，简称BMS）。只要主机的操作系统满足AOM支持的操作系统

（AOM支持的操作系统详见操作系统使用限制）且主机已安装ICAgent，即可将主机接入到AOM中进行监控。

应用场景_应用运维管理 AOM_产品介绍_华为云

产品介绍

目 录

1 什么是应用运维管理... 1

2 产品架构...3

3 产品功能...4

4 应用场景...6

5 指标总览...9

6 约束与限制...32

7 隐私与敏感信息保护声明... 37

8 与其他服务的关系... 38

9 基本概念...42

10 权限管理... 45

11 计费说明... 48

12 修订记录... 49

1 什么是应用运维管理

运维遇到挑战

AOM 帮您解决

AOM 有哪些优势

2 产品架构

采用三层架构

3 产品功能

应用监控

主机监控

应用自动发现

仪表盘

告警列表

日志管理

4 应用场景

巡检与问题定界

立体化运维

5 指标总览

5.1 简介

指标命名空间

指标维度

5.2 网络指标及其维度

5.3 磁盘指标及其维度

5.4 磁盘分区指标

5.5 文件系统指标及其维度

5.6 主机指标及其维度

5.7 集群指标及其维度

5.8 容器组件指标及其维度

5.9 虚机组件指标及其维度

5.10 实例指标及其维度

5.11 服务指标及其维度

5.12 性能指标及其维度

5.13 Grafana 普罗指标

6 约束与限制

操作系统使用限制

资源使用限制

服务使用限制

7 隐私与敏感信息保护声明

采集器部署

容器监控

8 与其他服务的关系

消息通知服务

对象存储服务

云审计服务

统一身份认证服务

云监控服务

应用性能管理服务

虚拟私有云服务

弹性负载均衡服务

关系型数据库服务

分布式缓存服务

云容器引擎服务

云容器实例服务

应用编排服务

应用管理与运维平台

函数工作流服务

智能边缘平台

弹性云服务器

裸金属服务器

9 基本概念

指标

主机

目录

1 ^{什么是应用运维管理}

2 ^产品架构

3 ^产品功能

4 ^应用场景

5 ^指标总览

6 ^{约束与限制}

8 ^{与其他服务的关系}

9 ^基本概念