• 沒有找到結果。

告警通知_应用性能管理 APM_用户指南(1.0)_告警中心_华为云

N/A
N/A
Protected

Academic year: 2022

Share "告警通知_应用性能管理 APM_用户指南(1.0)_告警中心_华为云"

Copied!
50
0
0

加載中.... (立即查看全文)

全文

(1)

应用性能管理

用户指南

文档版本 01

发布日期 2021-05-24

(2)

版权所有 © 华为技术有限公司 2021。 保留一切权利。

非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传 播。

商标声明

和其他华为商标均为华为技术有限公司的商标。

本文档提及的其他所有商标或注册商标,由各自的所有人拥有。

注意

您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或 特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声 明或保证。

由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文 档中的所有陈述、信息和建议不构成任何明示或暗示的担保。

(3)

目 录

1 使用导读...1

2 权限管理...2

2.1 创建用户并授权使用 APM... 2

2.2 APM 自定义策略... 3

3 应用概览...5

3.1 总览... 5

3.2 资源列表...6

4 全链路拓扑... 7

5 调用链追踪...11

5.1 调用链...11

5.2 方法追踪... 13

6 事务列表...15

7 SQL 分析... 18

8 JVM 监控...22

9 安装配置...27

9.1 Agent 管理... 27

9.1.1 安装 ICAgent(Linux)...27

9.1.2 升级 ICAgent(Linux)...31

9.1.3 卸载 ICAgent(Linux)...31

9.2 采集配置... 33

9.3 配置中心... 34

10 告警中心... 36

10.1 查看告警... 36

10.2 查看事件... 39

10.3 告警通知... 39

10.4 阈值规则... 42

10.4.1 创建阈值规则...42

10.4.2 创建静态阈值模板... 45

用户指南 目 录

(4)

1 使用导读

本地图介绍了APM功能的使用场景的相关指导,您可以根据需要选择。

拓扑 可视化展示应用间调用关系和依赖关系,应用拓扑自发现,异常应用 实例无处躲藏。

调用链 拓扑发现异常服务,通过查看调用状态、耗时、接口调用的详细信

息,进一步定界问题产生的原因。

事务 展示事务的关键指标,使用Apdex对应用打分,直观体现用户对应用 的满意度。

● 当事务异常,则上报告警。

● 对于用户体验差的事务,通过拓扑和调用链完成事务问题定位。

方法追踪 帮助应用的开发人员在线定位方法级性能问题。

SQL分析 分析异常SQL语句导致的数据库性能问题。拓扑展示数据库或SQL语

句的关键指标。

JVM监控 实时监控JVM运行环境的内存和线程指标,快速发现内存泄漏、线程

异常等问题。

● 拓扑展示实例的JVM指标数据。

● 当JVM指标异常,则上报告警。

了解更多 权限管理

创建用户并授权使用APM。

快速入门

使用APM功能前,了解多种场景下应用如何接入APM。

操作视频

拓扑、调用链、事务等的操作指导。

论坛

求助、技术分享、活动等。

用户指南 1 使用导读

(5)

2 权限管理

2.1 创建用户并授权使用 APM

如果您需要对您所拥有的APM进行精细的权限管理,您可以使用统一身份认证服务

(Identity and Access Management,简称IAM),通过IAM,您可以:

● 根据企业的业务组织,在您的华为云账号中,给企业中不同职能部门的员工创建 IAM用户,让员工拥有唯一安全凭证,并使用APM资源。

● 根据企业用户的职能,设置不同的访问权限,以达到用户之间的权限隔离。

● 将APM资源委托给更专业、高效的其他华为云账号或者云服务,这些账号或者云 服务可以根据权限进行代运维。

如果华为云账号已经能满足您的要求,不需要创建独立的IAM用户,您可以跳过本章 节,不影响您使用APM服务的其它功能。

本章节为您介绍对用户授权的方法,操作流程如图2-1所示。

前提条件

给用户组授权之前,请您了解用户组可以添加的APM权限,并结合实际需求进行选 择,APM支持的系统权限,请参见APM系统权限。若您需要对除APM之外的其他服务 授权,IAM支持服务的所有系统权限请参见系统权限。

用户指南 2 权限管理

(6)

示例流程

2-1 给用户授权 APM 权限流程

1. 创建用户组并授权

在IAM控制台创建用户组,并授予APM只读权限“APM ReadOnlyAccess”。

2. 创建用户并加入用户组

在IAM控制台创建用户,并将其加入1中创建的用户组。

3. 用户登录并验证权限

新创建的用户登录控制台,验证APM的只读权限。

2.2 APM 自定义策略

如果系统预置的APM权限不能满足您的授权要求,您可以创建自定义策略。自定义策 略中可以添加的授权项(Action),请参考策略和授权项说明。

目前华为云支持以下两种方式创建自定义策略:

● 可视化视图创建自定义策略:无需了解策略语法,按可视化视图导航栏选择云服 务、操作、资源、条件等策略内容,可自动生成策略。

● JSON视图创建自定义策略:可以在选择策略模板后,根据具体需求编辑策略内 容;也可以直接在编辑框内编写JSON格式的策略内容。

具体创建步骤请参见:创建自定义策略。本章为您介绍常用的APM自定义策略样例。

APM 自定义策略样例

● 示例1:授权用户安装ICAgent权限

{ "Version": "1.1", "Statement": [ {

"Effect": "Allow",

用户指南 2 权限管理

(7)

"Action": [

"apm:icmgr:create"

] } ] }

● 示例2:拒绝用户卸载采集组件

拒绝策略需要同时配合其他策略使用,否则没有实际作用。用户被授予的策略 中,一个授权项的作用如果同时存在Alow和Deny,则遵循Deny优先。

如果您给用户授予APM FullAccess的系统策略,但不希望用户拥有APM

FullAccess中定义的卸载采集组件权限,您可以创建一条拒绝卸载采集组件的自定 义策略,然后同时将APM FullAccess和拒绝策略授予用户,根据Deny优先原则,

则用户可以对APM执行除了卸载采集组件外的所有操作。拒绝策略示例如下:

{ "Version": "1.1", "Statement": [ {

"Effect": "Deny", "Action": [

"apm:icmgr:delete"

] } ] }

● 示例3:多个授权项策略

一个自定义策略中可以包含多个授权项,且除了可以包含本服务的授权项外,还 可以包含其他服务的授权项,可以包含的其他服务必须跟本服务同属性,即都是 项目级服务。多个授权语句策略描述如下:

{ "Version": "1.1", "Statement": [ {

"Effect": "Allow", "Action": [ "aom:*:list", "aom:*:get", "apm:*:list", "apm:*:get"

] }, {

"Effect": "Allow", "Action": [

"cce:cluster:get", "cce:cluster:list", "cce:node:get", "cce:node:list"

] } ] }

用户指南 2 权限管理

(8)

3 应用概览

3.1 总览

应用是提供服务所需功能的软件,可以对相同或者相近业务的一组服务进行逻辑划 分。您可以将某类相同业务的服务放到同一个应用中,并实现整个业务的应用性能管 理。例如,可以将账户、产品、支付等服务,放入“商城”应用中。

通过总览您可以快速了解应用的健康情况。在总览界面中可进行如下操作:

3-1 总览界面

说明

应用卡片中的企业项目只有在您开通了企业项目后才会显示。开通企业项目后,历史探针应用及 新增探针应用默认归类到default企业项目下,如需修改应用所属企业项目,可点击应用卡片上 的企业项目名称跳转到企业项目页面对APM应用进行迁入迁出操作。企业项目管理提供了一种 按企业项目管理云资源的方式,帮助您实现以企业项目为基本单元的资源及人员的统一管理,默 认项目为default。关于开通、创建和管理企业项目的详情,请参见《企业管理用户指南》。

以下场景中您可以删除卡片服务:

● 已经将接入APM的服务删除掉了。

● 已经将ICAgent卸载了且不需要再采集服务数据了。

用户指南 3 应用概览

(9)

如果您已接入APM的服务目前仍在运行中,则删除此卡片三分钟左右之后,该卡片会 重新显示出来。

3.2 资源列表

资源列表展现了应用的服务类型、资源ID、响应耗时、调用次数、错误次数等监控指 标数据,用于辅助定位问题。

3-2 资源列表

用户指南 3 应用概览

(10)

4 全链路拓扑

拓扑是对应用间调用关系和依赖关系的可视化展示。全链路拓扑图中,每个圆圈代表 一个服务,圆圈上每个分区代表一个实例,每个箭头代表一个调用关系。APM支持跨 应用调用,即拓扑图可展示不同应用的服务间调用关系,可在圆圈上单击右键,再单 击“查看应用”跳转到关联的应用拓扑界面。

圆圈上的不同颜色代表该实例的健康程度。颜色由Apdex值决定。Apdex值越接近1,

表示应用越健康。

拓扑界面操作说明

1. 拓扑图例说明见表4-1

4-1 拓扑图例说明

颜色 实例 调用

绿色 0.75 ≤ Apdex ≤ 1

表示实例被调用时响应很快。

0.75 ≤ Apdex ≤ 1 表示响应很快。

用户指南 4 全链路拓扑

(11)

颜色 实例 调用 黄色 0.3 ≤ Apdex < 0.75

表示实例被调用时响应较慢。

0.3 ≤ Apdex < 0.75 表示响应较慢。

红色 0 ≤ Apdex < 0.3

表示实例被调用时响应极慢。

0 ≤ Apdex < 0.3 表示响应极慢。

灰色 实例未被调用。 -

黑色 实例已被删除。 -

2. 在拓扑界面右侧,可以展示设置时间内应用的拓扑详情。

– 展示应用下所有事务Apdex状态分布情况。

– 统计错误数和时延数排名TOP5的服务。

– 统计错误数和时延数排名TOP5的事务。

– 统计响应时间、调用次数和错误次数排名TOP5的SQL语句。

3. 在拓扑图中,单击圆圈选中服务,可以查看该服务的指标数据,包括SLA

(Service-Level Agreement)、服务基础指标和事务详情。

4. 在拓扑图中,单击圆圈上的分区选中实例,可以查看该实例的指标数据,包括实 例基础指标、jvm指标、节点指标和事务详情。

通过拓扑快速定位问题

以定位实例缓慢问题为例。

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“全链路拓扑”。

步骤3 在拓扑界面的右上角设置问题发生的时间段。

步骤4 查看拓扑图中执行时间较大即标红的实例。

步骤5 (可选)对于多个实例的服务,可右键单击服务,选择“展开”查看实例级别的调用 关系,初步确认问题实例。

用户指南 4 全链路拓扑

(12)

步骤6 选择“调用链搜索”,跳转到调用链页面,通过参数、返回值、耗时等进一步定位问 题。

----结束

精准设置事务 Apdex 阈值

不同事务的响应时间不同,APM支持对不同事务设置不同的Apdex阈值。例如,登录 操作超过50ms可认为响应很慢、查询事务超过10ms可认为响应很慢,这种情况下需 要对操作和查询事务分别设置Apdex阈值。

步骤1 在拓扑界面中,将鼠标放在圈图上,右击并选择“修改阈值”。

步骤2 修改事务Apdex阈值,并单击“确定”。

用户指南 4 全链路拓扑

(13)

----结束

用户指南 4 全链路拓扑

(14)

5 调用链追踪

5.1 调用链

调用链可跟踪、记录业务的调用过程,对应用的调用状态、调用耗时等关键指标进行 全方位的监控,可视化地还原业务请求在分布式系统中的执行轨迹和状态,用于性能 及故障快速定界。

性能瓶颈定界

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“调用追踪 > 调用链”。

步骤3 在调用链界面右上边,分别在“最近时间”、“应用”和“全部服务”的下拉列表框 中选择需要查询的时间范围、应用名称和服务名称,单击“搜索”,查询相应的调用 链。

步骤4 (可选)在调用链界面中,单击右上角高级搜索,设置查询条件,单击“搜索”,查 询相应的调用链。

步骤5 根据总调用耗时锁定耗时较长的方法,找出性能瓶颈。

步骤6 单击“操作”列的“查看调用关系”。

步骤7 (可选)查看调用的辅助信息,进一步定界问题产生的原因。

用户指南 5 调用链追踪

(15)

单击“操作”列的“详情”,查看详细的调用信息。

----结束

故障辅助定位

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“调用追踪 > 调用链”。

步骤3 在调用链界面右上边,分别在“最近时间”、“应用”和“全部服务”的下拉列表框 中选择需要查询的时间范围、应用名称和服务名称,单击“搜索”,查询相应的调用 链。

步骤4 (可选)在调用链界面中,单击右上角高级搜索,设置查询条件,单击“搜索”,查 询相应的调用链。

步骤5 在“状态”列查看相应的状态是否正常,找出故障的业务。

用户指南 5 调用链追踪

(16)

步骤6 单击“查看调用关系”,查看返回值是否正常,找出故障。

步骤7 (可选)查看接口调用的辅助信息,进一步定界问题产生的原因。

单击“操作”列的“详情”,查看详细的调用信息。

----结束

5.2 方法追踪

方法追踪是对某个类的某个方法进行动态埋点,当这个类的方法被调用时,APM采集 探针会按照您配置的方法追踪规则对方法的调用数据进行采集,并将调用数据展现在 调用链页面中。方法追踪主要用来帮助应用的开发人员在线定位方法级性能问题。

APM对三方开源组件发布的API进行埋点,但没有对您应用的特定方法进行埋点。当您 需要监控应用中比较重要的方法,或APM不完全支持一些三方开源组件导致采集探针

用户指南 5 调用链追踪

(17)

采集不到部分方法时,需要自定义方法追踪,配置完成后,您可在调用链页面查看该 方法的调用信息。

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“调用追踪 > 方法追踪”。

步骤3 自定义方法追踪(即对应用进行埋点),并启动方法追踪。

在“方法追踪”页面单击“添加方法追踪”,参考下图进行设置,设置完成后单击

“启动”。

说明

● 若未设置“方法参数”,则默认对同一方法名的所用方法进行采集。

● 若未设置“取值”,则采集时不对方法的取值进行筛选。

● 若设置“启动参数采集”,则表示采集调用链方法入参和出参,若采集的参数总长度大于 255字节则仅显示255个字节的参数内容。

● 若设置“启动方法栈采集”,则表示采集方法的调用栈信息。

● 若设置“启动方法匹配全采集”,则表示采集所有的调用链方法;若未设置该选项,则表示 根据采集配置时设置的采样率(普通采样或智能采样)采集调用链方法。

步骤4 在页面下方通过总调用耗时、调用状态初步定位业务性能问题。

步骤5 单击问题调用所在行“操作”列的“查看调用关系”,查看方法级的调用关系。

----结束

用户指南 5 调用链追踪

(18)

6 事务列表

事务表示一个HTTP请求,是从“用户请求 > webserver > DB > webserver > 用户请 求”的完整过程。现实生活中,事务即一次任务,用户使用应用完成一项任务,比如 电商应用程序中一次商品查询就是一个事务,一次支付也是一个事务。

在执行一个事务时,可能需要服务间多次调用来完成该事务,任何一次慢调用或错误 调用都会导致系统响应较慢。在日常运维中,可通过对这些响应较慢的事务进行分 析,从而定位、解决应用问题,以提升服务的用户体验。

事务界面操作说明

6-1 事务界面

说明

事务详情展示列表中,“错误数”是返回码大于等于400的请求的数量,其他请求不在错误数统 计范围中。

1. 在事务界面,可以展示设置时间内应用的事务详情。

– 展示应用中事务的调用次数、错误次数分布情况。

– 展示应用中事务的整体时延分布情况。

2. 在事务界面,单击“新增分组”,勾选事务项,可以将已选择的事务项移至新 组,命名分组名称。

用户指南 6 事务列表

(19)

3. 在事务界面,单击“事务拓扑”,可以跳转到拓扑界面查看该事务的拓扑详情。

4. 在事务界面,单击“查看调用链”,可以跳转到调用链界面查看该事务的调用链 数据。

使用事务分析问题

以某事务极慢为例。

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“事务列表”。

步骤3 在事务列表中选择事务组中极慢的事务。

步骤4 单击操作列中“事务拓扑”查看该事务的全链路拓扑结构,在拓扑界面中查看实例具 体情况。

步骤5 右键单击极慢的实例,选择“调用链搜索”,跳转到调用链页面,通过参数、调用耗 时等进一步定位问题。

----结束

自定义事务

为了更精准定义事务,精准采集事务相关的调用链数据,您可以利用URI模板自定义事 务,将多个请求分类放至不同的事务中。当采集器接收到请求时,优先计算自定义事 务。

用户指南 6 事务列表

(20)

步骤1 在事务界面,单击“自定义事务”。事务是由请求方法和正则表达式组成的,事务格 式为{Request Method}_/{pattern},例如:请求方法为GET、POST,正则表达式为 / {name},则事务为GET,POST_/{name}。

步骤2 选择“请求方法”。请求方法是一个或多个请求的方法名,包括GET、PUT、

DELETE、POST、HEAD、CONNECT、OPTIONS、PATCH、TRACE、ALL,其中ALL 表示可以匹配所有的请求方法。

步骤3 在“正则表达式”文本框中,输入事务规则,单击“确定”,自定义事务规则保存成 功。

正则表达式采用Spring MVC框架的URI模板匹配方式,例如:

@RequestMapping(path="/owners/{ownerId}/pets/{petId}", method=RequestMethod.GET),其中ownerId、petId为变量。

如果您需要添加多条自定义事务规则,请单击“添加正则匹配”。

说明

● 事务规则只能由英文大小写字母、数字、特殊字符“?”“*”“|”“=”“{}”“&”组 成,且以“/”开头,不以“/”结尾,长度限制为1~50个字符。

● “?”“*”支持模糊匹配,“?”可以匹配一个字符,“*”可以匹配一个URI中两个“/”

中间的0到n个字符,“**”可以无限匹配字符。例如:输入/first/*,可以匹配/first/test,不 能匹配/first/test/test,输入/first/**,可以匹配/first/test、/first/test/test。

----结束

用户指南 6 事务列表

(21)

7 SQL 分析

通过图表形式展现数据库、SQL语句的调用次数、响应时间、错误次数等关键指标,

用于分析异常SQL语句导致的数据库性能问题,异常SQL语句是指慢SQL语句和调用出 错的SQL语句。SQL分析当前仅支持MySQL、Oracle、PostgreSQL关系型数据库。

SQL 操作界面说明

7-1 SQL 界面图示

异常 SQL 语句分析

数据库SQL语句异常,可能导致业务超时等性能问题。在日常运维中,可通过错误耗 时、响应时间等关键指标对数据库进行监控,定位出那些执行耗时长、效率低、调用 出错的SQL语句,并对其进行分析和优化。

SQL开关用来控制是否对SQL数据进行采集,操作前您需要确保该开关已开启,否则您 将查询不到SQL数据。SQL开关默认为开启状态,若已被关闭,请在左侧导航栏中选择

“采集管理 > 采集配置”进行开启。

步骤1 登录应用性能管理。

用户指南 7 SQL 分析

(22)

步骤2 在左侧导航栏中选择“SQL分析”。

步骤3 在SQL界面中,设置右上角的时间范围,将时间调整到问题发生的时间段。

步骤4 在“概览”页签,通过数据库关键指标定位出应用中的问题数据库。数据库响应时间 长、调用错误次数多都可能导致性能问题。

步骤5 分析该数据库出现性能问题的原因。

单击“SQL分析”页签,在SQL语句列表中定位出异常SQL语句。

步骤6 进一步分析导致SQL语句异常的原因。

1. 单击该异常SQL语句,跳转到调用链页面,查看异常SQL对整个业务的影响。

用户指南 7 SQL 分析

(23)

2. 单击“操作”列的“查看调用关系”,找到异常SQL语句所在的方法。在该方法 中对该SQL语句进行分析,例如,是没有用到索引、数据量过大、语法错误或出 现死锁等原因导致SQL语句异常,找出原因后对SQL语句进行优化。

----结束

阈值规则

通过创建阈值规则创建“资源类型”为SQL的阈值规则。

如果产生告警后,需要查看产生告警具体的SQL语句,需要如下步骤:

步骤1 从告警详情中查看告警上报的时间、sqlId,以及数据库实例tier。

用户指南 7 SQL 分析

(24)

步骤2 在APM的SQL分析页面,根据查询到的tier和时间选择查询范围,查询到对应数据库实 例当前时间内的SQL语句列表。

步骤3 用查询到的sqlId搜索,查询到具体的SQL语句。

步骤4 查询到SQL语句后,根据业务场景和SQL语句的指标值进行分析。

----结束

用户指南 7 SQL 分析

(25)

8 JVM 监控

JVM监控展示基于Java应用的JVM运行环境的内存和线程指标,您可以实时监控指标趋 势进行性能分析。

JVM监控功能提供JVM内存和线程指标,您可以单击“内存”和“线程”两个页签,

查看内存和线程指标图,快速分析定位内存泄漏、线程异常等问题。

内存指标图表

如图8-1所示,展示设置的时间段内某个实例的总内存、堆内存、非堆内存等JVM不同 内存区域的最大值、分配值和使用情况的趋势,也展示设置的时间段内某个实例的垃 圾收集堆的GC时间和GC次数趋势。

8-1 内存指标图

JVM内存介绍

JVM区域总体分为Heap memory和Non-Heap memory。

● Heap memory:堆是Java 虚拟机运行时数据区域,分配所有实例和数组的内存。

对象的堆内存由称为垃圾回收器的自动内存管理系统回收。Heap区分为Eden Space、Survivor Space和Tenured Space。

● Non-Heap memory:Java 虚拟机管理堆之外的内存。Non-Heap区分为Code Cache、Permanent Space或Meta Space。

Java堆是垃圾收集器管理的主要区域,又称为Garbage Collection Heap,GC方式包括 Full GC和Minor GC。

用户指南 8 JVM 监控

(26)

8-1 内存区域说明 区域名称 说明

EdenSpace 用于最初从线程池分配内存给大部分对象。

Survivor

Space 用于保存在Eden区内存池中经过垃圾回收后没有被回收的对象。

Tenured

Space 用于保持已经在Survivor区内存池中存在了一段时间的对象。

CodeCache 用于编译和保存本地代码的内存。

Permanent

Space 用于保存虚拟机的静态数据,例如,类和方法对象。

MetaSpace 用于保存本地化内存中类的元数据。Java 8之后Meta Space替代 Permanent Space。

Direct

Buffer 监控直接缓冲区的使用情况。

Full GC 当内存回收之后仍无法满足内存空间分配需求时, 对整个堆空间(新 生代、老年代和永久代)进行垃圾收集。

Minor GC 当分配对象遇到内存不足时,对新生代空间(Eden区和Survivor区)

进行垃圾收集。

JVM采用分代垃圾回收。在JVM的内存空间中把堆空间分为老年代和新生代。将大量

(90%以上)创建后短期消亡的对象存储在新生代,而老年代中存放生命周期长久的 实例对象。新生代空间分为Eden区和两个Survivor区。新对象首先分配在Eden区,

Survivor区作为Eden区和Tenured区的缓冲,在Survivor区的对象经历若干次收集仍然 存活的,就会被转移到老年区,如图8-2所示。

8-2 内存区域图解

用户指南 8 JVM 监控

(27)

说明

新生代共有两个Survivor区,分别用from和to指针指代,其中to指针指向空的Survivor区。

线程指标图表

如图8-3所示,展示设置的时间段内某个实例的New线程数、Runnable线程数、

Blocked线程数、Waiting线程数等线程执行情况的趋势。

8-3 线程指标图

8-2 线程说明 线程名称 说明

总数 是指总线程数,包含活动线程数和备用线程数。粘滞线程和专用线 程在执行完成后变为备用线程。

死锁 是指两个或两个以上的线程在执行过程中,由于竞争资源或彼此通 信而造成的阻塞现象,导致系统处于死锁状态。

New线程数 新建线程数量。

Runnable线

程数 可运行线程数量。

Blocked线程 数

阻塞线程数量。

Waiting线程 数

等待中线程数量。

TimedWaitin

g线程数 限时等待线程数量。

Terminated线 程数

终结线程数量。

用户指南 8 JVM 监控

(28)

线程名称 说明

最大连接数 Tomcat可用的最大连接数。

当前连接数 Tomcat当前已占用的连接数。

最大线程数 Tomcat最大执行线程数。

当前线程数 Tomcat当前执行线程数。

繁忙线程数 Tomcat当前处理任务的执行线程数。

添加阈值规则

您可以给JVM内存及线程的各个指标添加阈值规则,当满足规则条件时会触发告警,

提醒您关注。

步骤1 在“JVM监控”界面,先在页面左上角选择应用,再选择服务的具体某个实例。

步骤2 在右侧的趋势图中可给内存或线程的每个指标设置阈值规则。单击趋势图上的“添加 阈值规则”。

步骤3 填写规则参数,如下图示例,最后单击“确认”。若需要发送告警通知,则“发送通 知”需要选择“是”,并选择主题。

说明

添加至服务参数说明:

● 若选择“是”,表示添加阈值规则到整个服务;

● 若选择“否”,表示添加阈值规则到单个实例。

用户指南 8 JVM 监控

(29)

----结束

用户指南 8 JVM 监控

(30)

9 安装配置

9.1 Agent 管理

9.1.1 安装 ICAgent(Linux)

前提条件

ICAgent是采集代理,在进行ICAgent安装前,需要先确保本地浏览器时间与服务器时 区、时间都一致。若有多个服务器,则要保证本地浏览器、多个服务器的时区、时间 都一致。否则,可能会导致安装后不能在界面上准确查看应用的拓扑、调用链等数 据。

安装方式说明

ICAgent有两种安装方式,您可以按照您的场景进行选择。您需要注意的是,下述两种 安装方式,都不适用于容器节点(通过ServiceStage、AOS、CCE创建的集群容器节 点),容器节点要使用APM,可参考快速入门根据应用的部署方式进行操作。安装方 式见表9-1:

9-1 安装方式

方式 适用场景

首次安装 当满足以下条件时,您需要按照该方式安装:

1. 服务器已经绑定了EIP。绑定EIP的详细操作请参见为弹性云服 务器申请和绑定弹性IP。

2. 该服务器上未安装过ICAgent。

继承安装 当满足以下条件时,您需要按照该方式安装:

您有多个服务器需要安装ICAgent,其中一个服务器绑定了EIP,而 剩余的没有绑定EIP。其中一个服务器已经通过首次安装方式装好 了ICAgent,对于没有绑定EIP的服务器,您可以采用该安装方式。

用户指南 9 安装配置

(31)

首次安装

您在华为云上申请服务器后,在Linux环境下安装ICAgent,需执行如下操作:

步骤1 获取AK/SK,通过如下两种方式获取AK/SK:

● 通过创建委托获取临时AK/SK,请参考如何通过创建委托获取AK/SK章节获取 AK/SK。

说明

安装ICAgent的每个ECS节点需要在弹性云服务器界面上绑定已创建的委托,5分钟后委托 生效。

● 通过新增访问密钥获取永久AK/SK,请参考如何获取AK/SK章节获取AK/SK。

步骤2 在左侧导航栏中选择“采集管理 > Agent管理”。

步骤3 单击“安装ICAgent”,选择“主机类型”为“华为云主机”、“安装系统”为

“Linux”。

步骤4 生成ICAgent安装命令,并复制该命令。

● 如图9-1所示,如果您已获取永久AK/SK,选择“安装方式”为“获取AK/SK凭 证”,请在文本框中输入已获取的AK/SK,生成ICAgent安装命令。单击“复制命 令”,复制ICAgent安装命令。

9-1 输入 AK/SK 凭证

说明

请确保输入正确的AK/SK,否则将无法安装ICAgent。

● 如果您已通过创建委托获取临时AK/SK,选择“安装方式”为“创建IAM委托”,

单击“复制命令”,复制ICAgent安装命令。

步骤5 使用远程登录工具,以root用户登录待安装ICAgent的服务器,执行ICAgent安装命令 进行安装。

说明

● 当显示“ICAgent install success”时,表示安装成功,ICAgent已安装在了/opt/oss/

servicemgr/目录。安装成功后,在应用性能管理左侧导航栏中选择“采集管理 > Agent管 理”,查看该服务器ICAgent状态。

● 安装失败,请参考卸载ICAgent章节的卸载ICAgent(Linux)后重新安装,如果还未安装成 功,请联系华为云工程师。

----结束

用户指南 9 安装配置

(32)

继承安装

当您已有服务器安装过ICAgent,且该服务器“/opt/ICAgent/”路径下ICAgent安装包 ICProbeAgent.tar.gz存在,通过该方式可对远端服务器进行一键式继承安装。

步骤1 在已安装ICAgent的服务器上执行如下命令,其中x.x.x.x表示服务器IP地址。

bash /opt/oss/servicemgr/ICAgent/bin/remoteInstall/remote_install.sh -ip x.x.x.x

步骤2 根据提示输入待安装ICAgent的服务器root用户密码。

说明

● 如果已安装ICAgent的服务器安装过expect工具,执行上述命令后,即可完成安装。如果已 安装ICAgent的服务器未安装expect工具,请根据提示输入,进行安装。

● 请确保已安装ICAgent的服务器可以使用root用户执行SSH、SCP命令,来与待安装ICAgent 的服务器进行远端通信。

● 当显示“ICAgent install success”时,表示安装成功,ICAgent已安装在了/opt/oss/

servicemgr/目录。安装成功后,在应用性能管理左侧导航栏中选择“采集管理 > Agent管 理”,查看该服务器ICAgent状态。

● 安装失败,请参考卸载ICAgent章节的卸载ICAgent(Linux)后重新安装,如果还未安装成 功,请联系华为云工程师。

----结束

继承批量安装

当您已有服务器安装过ICAgent,且该服务器“/opt/ICAgent/”路径下ICAgent安装包 ICProbeAgent.tar.gz存在,通过该方式可对多个远端服务器进行一键式继承批量安 装。

须知

1. 批量安装的ECS需和已安装成功的节点保持网络互通,scp、ssh命令可用。

2. 如果已安装的服务器使用了委托方式安装,其它批量安装的节点也需要设置委托,

请参考如何通过创建委托获取AK/SK。

3. 批量安装脚本依赖python版本,建议在python2.x版本的机器上执行此操作,

python3.x版本不支持。

前提条件

已收集需要安装Agent的所有虚拟机IP、密码,按照iplist.cfg格式整理好,并上传到已 安装过ICAgent机器的/opt/ICAgent/目录下。iplist.cfg格式示例如下所示,IP与密码之 间用空格隔开:

192.168.0.109 密码(请根据实际填写)

192.168.0.39 密码(请根据实际填写)

用户指南 9 安装配置

(33)

说明

● iplist.cfg中包含您的敏感信息,建议您使用完之后清理一下。

● 如果所有弹性云服务器的密码一致,iplist.cfg中只需列出IP,无需填写密码,在执行时输入 此密码即可;如果某个IP密码与其他不一致,则需在此IP后填写其密码。

● 批量安装功能依赖python2.7.*版本,如果安装时提示找不到python请安装python版本后重 试。

操作步骤

步骤1 在已安装ICAgent的服务器上执行如下命令。

bash /opt/oss/servicemgr/ICAgent/bin/remoteInstall/remote_install.sh - batchModeConfig /opt/ICAgent/iplist.cfg

根据脚本提示输入待安装机器的root用户默认密码,如果所有IP的密码在iplist.cfg中已 有配置,则直接输入回车键跳过即可,否则请输入默认密码。

batch install begin

Please input default passwd:

send cmd to 192.168.0.109 send cmd to 192.168.0.39 2 tasks running, please wait...

2 tasks running, please wait...

2 tasks running, please wait...

End of install agent: 192.168.0.39 End of install agent: 192.168.0.109 All hosts install icagent finish.

请耐心等待,当提示All hosts install icagent finish.时,则表示配置文件中的所有主机 安装操作已完成。

步骤2 安装完成后,在应用性能管理左侧导航栏中选择“采集管理 > Agent管理”,查看该 服务器ICAgent状态。

----结束

ICAgent 状态

ICAgent状态说明详见下表。

9-2 ICAgent 状态

状态 说明

运行 该主机ICAgent运行正常。

未安装 该主机未安装ICAgent。安装ICAgent,详细操作请参见安装 ICAgent(Linux)。

安装中 正在为该主机安装ICAgent。安装ICAgent预计需要1分钟左右,请 耐心等待。

安装失败 该主机ICAgent安装失败,请登录服务器卸载后重新安装。

升级中 正在升级该主机ICAgent。升级ICAgent预计需要1分钟左右,请耐 心等待。

升级失败 该主机ICAgent升级失败。请登录服务器卸载后重新安装。

用户指南 9 安装配置

(34)

状态 说明

离线 输入的AK/SK错误或ECS委托设置错误导致该主机ICAgent功能异 常。请获取正确的AK/SK或正确设置ECS委托。

异常 该主机ICAgent功能异常,请联系技术支持。

9.1.2 升级 ICAgent(Linux)

为了更好的采集体验,APM会不断更新ICAgent版本。当Linux系统提示您有新的 ICAgent版本时,您可以按照如下操作步骤进行升级。

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“采集管理 > Agent管理”。

步骤3 在页面右侧的下拉列表框中选择“集群:xxx”或“其他:用户自定义接入主机”。

步骤4 升级ICAgent。

● 如果在步骤3中下拉列表框中选择的是“集群:xxx”,则单击“升级ICAgent”。

可实现整个集群的升级操作,即在ICAgent列表下的所有主机一次性完成升级。

● 如果在步骤3中下拉列表框中选择的是“其他:用户自定义接入主机”,则先选择 主机后单击“升级ICAgent”。

步骤5 在“升级ICAgent”对话框中单击“确定”,ICAgent开始升级,升级ICAgent预计需 要1分钟左右,请耐心等待。待ICAgent的状态由“升级中”变为“运行”时,表示升 级成功。

----结束

9.1.3 卸载 ICAgent(Linux)

服务器上的ICAgent被卸载后,会影响该服务器的运维能力,导致拓扑、调用链等功能 不可用,请谨慎操作!

卸载方式,您可以按照需要进行选择:

● 通过界面卸载:此操作适用于正常安装ICAgent后需卸载的场景。

● 登录服务器卸载:此操作适用于未成功安装ICAgent需卸载重装的场景。

● 远程卸载:此操作适用于正常安装ICAgent后需远程卸载的场景。

● 批量卸载:此操作适用于正常安装ICAgent后需批量卸载的场景。

通过界面卸载

步骤1 在左侧导航栏中选择“采集管理 > Agent管理”。

步骤2 在页面右侧的下拉列表框中选择“其他: 用户自定义接入主机”。

步骤3 在主机列表中选中一个或多个待卸载ICAgent的服务器前的复选框,单击“卸载 ICAgent”。在“卸载ICAgent”对话框中单击“确定”。

ICAgent开始卸载,卸载ICAgent预计需要1分钟左右,请耐心等待。待ICAgent的状态 由“卸载中”变为“未安装”时,表示卸载成功。

用户指南 9 安装配置

(35)

说明

通过界面卸载ICAgent后如果需要再次安装,请等待5分钟后执行安装操作,否则可能出现被再 次自动卸载的情况。

----结束

登录服务器卸载

步骤1 以root用户登录需卸载ICAgent的服务器。

步骤2 执行如下命令卸载ICAgent。

bash /opt/oss/servicemgr/ICAgent/bin/manual/uninstall.sh;

步骤3 当显示“ICAgent uninstall success”时,表示卸载成功。

----结束

远程卸载

除了上述登录服务器上执行uninstall.sh脚本卸载ICAgent的方式,还有类似继承安装的 方式对主机进行远程卸载。

步骤1 在已安装ICAgent的服务器上执行如下命令,其中x.x.x.x表示服务器IP地址。

bash /opt/oss/servicemgr/ICAgent/bin/remoteUninstall/remote_uninstall.sh - ip x.x.x.x

步骤2 根据提示输入待卸载ICAgent的服务器root用户密码。

说明

● 如果已安装ICAgent的服务器安装过expect工具,执行上述命令后,即可完成卸载。如果已 安装ICAgent的服务器未安装expect工具,请根据提示输入,进行卸载。

● 请确保已安装ICAgent的服务器可以使用root用户执行SSH、SCP命令,来与待卸载ICAgent 的服务器进行远端通信。

● 当显示“ICAgent uninstall success”时,表示卸载成功。 卸载完成后,可在应用性能管理 左侧导航栏中选择“Agent管理”,查看该服务器ICAgent状态。

----结束

批量卸载

当您已有服务器安装过ICAgent,且该服务器“/opt/ICAgent/”路径下ICAgent安装包 ICProbeAgent.zip存在,通过该方式可对多个远端服务器进行一键式继承批量卸载。

须知

批量卸载的ECS需同属一个VPC下,并在同一个网段中。

前提条件

已收集需要卸载Agent的所有虚拟机IP、密码,按照iplist.cfg格式整理好,并上传到已 安装过ICAgent机器的/opt/ICAgent/目录下。iplist.cfg格式示例如下所示,IP与密码之 间用空格隔开:

用户指南 9 安装配置

(36)

192.168.0.109 密码(请根据实际填写)

192.168.0.39 密码(请根据实际填写)

说明

● iplist.cfg中包含您的敏感信息,建议您使用完之后清理一下。

● 如果所有弹性云服务器的密码一致,iplist.cfg中只需列出IP,无需填写密码,在执行时输入 此密码即可;如果某个IP密码与其他不一致,则需在此IP后填写其密码。

操作步骤

步骤1 在已安装ICAgent的服务器上执行如下命令。

bash /opt/oss/servicemgr/ICAgent/bin/remoteUninstall/remote_uninstall.sh - batchModeConfig /opt/ICAgent/iplist.cfg

根据脚本提示输入待卸载机器的root用户默认密码,如果所有IP的密码在iplist.cfg中已 有配置,则直接输入回车键跳过即可,否则请输入默认密码。

batch uninstall begin Please input default passwd:

send cmd to 192.168.0.109 send cmd to 192.168.0.39 2 tasks running, please wait...

End of uninstall agent: 192.168.0.109 End of uninstall agent: 192.168.0.39 All hosts uninstall icagent finish.

请耐心等待,当提示All hosts uninstall icagent finish.时,则表示配置文件中的所有主 机卸载操作已完成。

步骤2 卸载完成后,在应用性能管理左侧导航栏中选择“采集管理 > Agent管理”,查看该 服务器ICAgent状态。

----结束

9.2 采集配置

为了减少内存、数据库、磁盘空间占用,您可以按需进行采集设置。采集设置对所选 应用生效。

操作步骤

步骤1 在左侧导航栏中选择“采集管理 > 采集设置”。

步骤2 在“应用”下拉列表框中选择应用。

步骤3 单击 打开采集开关。

说明

采集开关默认打开,当您不需要采集某个应用的调用链和拓扑数据时,可通过关闭采集开关来停 止数据采集,以减少资源占用。

步骤4 单击 开启正常调用采集开关。

用户指南 9 安装配置

(37)

为了降低采集探针性能消耗,当事务异常或调用时延大于拓扑Apdex阈值时每分钟额 外采集一条。如果打开正常调用采集开关,正常调用抽样采样,如果关闭此开关,不 采集正常调用。

步骤5 单击 开启内存检测机制。

为了避免业务极度繁忙时,采集探针对业务性能造成影响,可开启内存检测机制,使 采集探针进入休眠状态。您还可以单击 ,设置持续周期和内存占用。

说明

● 内存占用=java进程实际使用内存/可用内存上限。

● 可用内存上限:按照容器可用内存资源配额与JVM最大堆内存中较小一个值计算。JVM最大 堆内存为参数“-Xmx”的值,若未设置则默认为JVM最大可用内存25%。

● 采集探针停止采集时的内存占用应大于等于恢复采集时的内存占用。

步骤6 单击 开启TraceID开关。

TraceID用来唯一标识调用链,开启后,系统会在您的日志文件中增加TraceID信息(如 下截图红框所示),您可通过TraceID(例如,ffffffffe1c08cab、ffffffffe1c08cad、

ffffffffe1c08cae)精准搜索调用链的日志信息。

步骤7 单击 开启SQL分析开关。

该开关关闭后,不会影响调用链中的SQL数据,但您将无法正常使用SQL分析功能。

步骤8 设置忽略HTTP响应代码。

为了避免探针误报正常调用链的诸如自定义返回码、异常等调用错误,快速准确地定 位错误的调用链, 您可以设置该选项,错误记录表中将不记录被忽略的HTTP响应代 码。单击 ,输入被忽略的HTTP响应代码,单击 。格式为逗号分割的数字HTTP响 应代码。

步骤9 设置忽略错误和异常。

为了避免探针误报正常调用链的诸如自定义返回码、异常等调用错误,快速准确地定 位错误的调用链, 您可以设置该选项,错误记录表中将不记录被忽略的错误和异常。

单击 ,输入被忽略的错误和异常,单击 。格式为逗号分隔的Java异常类名称字符 串,缺省值为空。

----结束

9.3 配置中心

自定义 Apdex 阈值

步骤1 在左侧导航栏中选择“配置中心”。

用户指南 9 安装配置

(38)

步骤2 在下拉列表框中选择需要设置Apdex阈值的应用。

步骤3 设置阈值。什么是Apdex及Apdex阈值

● 在“拓扑Apdex阈值”后单击 并输入拓扑Apdex阈值,单击 保存。

说明

拓扑Apdex阈值默认为100毫秒。

● 在“事务Apdex阈值”后单击 并输入事务Apdex阈值,单击 保存。

说明

– 事务Apdex阈值默认为500毫秒。

– 该设置对应用内所有事务均生效。若用户已对某个事务的Apdex阈值单独进行了设置,

则该设置对此事务不生效,但对此事务外的其他事务生效。单独设置某个事务Apdex阈 值操作如下:

1. 在左侧导航栏中选择“事务列表”。

2. 在左上方的下拉列表框中选择事务所在的应用。

3. 在事务列表中,找到该事务的“Apdex阈值(ms)”,单击 并输入Apdex阈值,单 保存。

----结束

用户指南 9 安装配置

(39)

10 告警中心

10.1 查看告警

告警是指APM自身,或AOS、ServiceStage、CCE等外部服务在异常情况或在可能导致 异常情况下上报的信息,并且您需采取相应措施清除故障,否则会由于APM自身或外 部服务的功能异常而引起业务的异常。

告警流程图

查看告警

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“告警中心 > 告警列表”。

步骤3 在“告警列表”页面中查看告警。

用户指南 10 告警中心

(40)

1. 设置时间范围,查看已设时间范围内产生的告警。可通过如下两种方式设置时间 范围:

方式一:使用APM预定义好的时间标签,例如,近1小时、近6小时、近一天等,

您可根据实际需要选择不同的时间粒度。

方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。

2. 设置搜索条件后,单击“搜索”,查看在已设时间范围内满足搜索条件的告警。

单击“重置”清除输入的搜索条件。

步骤4 您可参考表10-1执行如下操作:

10-1 操作说明

操作 方法 说明

查看告警统计 数据

通过柱状图查看在指定时间范围 内和搜索条件下告警的统计数 据。

-

清除告警 在当前告警列表中单击目标告警

所在“操作”列中的“清除”。 ● 告警故障已经解除时可进行 清除操作。

● 被执行清除操作后的告警将 不能进行查询。

查看告警详情 单击目标告警所在“操作”列中 的“查看”可查看告警详情。 - 查看最新告警

单击页面右侧的 ,可查看 最新上报的3条告警。

-

----结束

设置事务阈值规则

APM支持当事务异常时发生告警。 您可以设置事务指标的阈值告警,当满足设置的告 警条件时,告警会上报到告警中心,可以在导航栏的“告警中心 > 告警列表”中查 看。本次操作以添加事务的“调用次数”指标告警为例。

步骤1 在事务列表界面,在操作列单击“阈值告警”,进入“添加事务指标阈值”页面。

10-1 添加事务指标阈值

步骤2 选择指标为“调用次数”。事务指标包括调用次数、整体时延、错误数、Apdex。

用户指南 10 告警中心

(41)

步骤3 阈值设置为“持续3分钟大于等于15次”。

步骤4 发送通知选择为“否”,单击“添加”,阈值告警设置完成。

说明

如果您想要收到短信通知,请选择“是”,详细操作请参见告警通知。

----结束

设置 JVM 阈值规则

APM支持当JVM内存和线程的各项指标异常时发生告警。 您可以设置实例的JVM指标 阈值告警,当满足设置的告警条件时,告警会上报到告警中心,可以在导航栏的“告 警中心 > 告警列表”中查看。本次操作以添加实例总内存的“最大”指标告警为例。

步骤1 在JVM监控界面,单击实例总内存的“添加阈值规则”,进入“添加阈值规则”页 面。

10-2 添加阈值规则

步骤2 选择指标为“最大内存”,指标包括最大内存、分配内存、使用内存。

步骤3 阈值设置为“持续3分钟大于等于15MB”。

步骤4 选择统计方式为“平均值”,统计方式包括最大值、最小值、平均值。

用户指南 10 告警中心

(42)

步骤5 选择告警级别为“次要”,告警级别包括紧急、重要、次要、提示。

步骤6 发送通知选择为“否”,单击“确认”,阈值告警设置完成。

说明

如果您想要收到短信通知,请选择“是”,详细操作请参见告警通知。

----结束

10.2 查看事件

事件告诉您APM自身,或AOS、ServiceStage、CCE等外部服务发生了某种变化,但不 一定会引起业务异常,事件一般用来表达一些重要信息。您不用对事件进行处理。

查看事件

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“告警中心 > 事件列表”。

步骤3 在“事件列表”页面中查看事件。

1. 设置时间范围,查看已设时间范围内产生的事件。可通过如下两种方式设置时间 范围:

方式一:使用APM预定义好的时间标签,例如,近1小时、近6小时、近一天等,

您可根据实际需要选择不同的时间粒度。

方式二:通过开始时间和结束时间,自定义时间范围,您最长可设置为30天。

2. 设置搜索条件后,单击“搜索”,查看在已设时间范围内满足搜索条件的事件。

单击“重置”清除输入的搜索条件。

步骤4 您可参考表10-2执行如下操作:

10-2 操作说明

操作 方法 说明

查看事件统计 数据

通过柱状图查看在指定时间范围 内和搜索条件下事件的统计数 据。

-

----结束

10.3 告警通知

告警可帮您将集群的某类告警以短信或邮件方式批量发送给您指定的用户,以便在第 一时间获取到集群的异常状况,进而迅速处理故障,避免造成业务损失。

您最多可创建10个通知规则,如果通知规则数量已达上限10个时,请删除不需要的通 知规则后重新创建。

如果您未创建任何通知规则,则无法收到告警通知。您只能登录应用性能管理,在左 侧导航栏中选择“告警中心 > 告警列表”,在告警页面自行查看。

用户指南 10 告警中心

(43)

APM目前支持对表10-3中的告警创建通知规则。

10-3 告警类型说明 告警类型 说明

探针休眠 探针休眠产生的告警。

采集器安装告

警 包括ICAgent安装失败告警、ICAgent升级失败告警、ICAgent卸载 失败告警和ICAgent状态异常告警。

阈值告警 阈值规则产生的阈值告警。

说明

更多告警类型正在开发中。

创建通知规则

步骤1 登录应用性能管理。

步骤2 在左侧导航栏中选择“告警中心 > 通知规则”,单击“创建通知规则”。

步骤3 创建主题并设置主题策略后,为主题添加订阅者。如果均已设置,请跳过该步骤。

1. APM已对接消息通知服务(Simple Message Notification,简称SMN),单击

“创建SMN主题”进入SMN界面。

2. 您首先需在SMN界面创建一个主题,在左侧导航栏中选择“主题管理 > 主题”,

单击“创建主题”。详细操作请参见《消息通知服务用户指南》的创建主题 3. 单击主题列表操作列中的“更多 > 设置主题策略”参考图10-3,否则会导致告警

通知发送失败,然后再为这个主题添加相关的订阅者,即告警通知的接收人(短 信或邮件),详细操作请分别参见《消息通知服务用户指南》设置主题策略、订 阅主题页面。这样在集群发生异常时,APM可以实时地将告警信息以广播的方式 通知这些订阅者。

用户指南 10 告警中心

(44)

10-3 设置主题策略

步骤4 输入规则名称,选择告警类型(即当产生哪一类型的告警时发送通知,详见表 10-3),选择步骤3中已创建的主题,并自定义监控集群后,单击“创建”,如图 10-4所示。

通知规则创建完成后,当产生符合该通知规则的告警时,APM会通过短信或邮件的方 式自动通知。

用户指南 10 告警中心

(45)

10-4 创建通知规则

----结束

更多通知规则操作

通知规则创建完成后,您还可以执行表10-4中的操作。

10-4 相关操作

操作 说明

修改通知规则 单击“操作”列的“修改”。

删除通知规则 ● 删除一个通知规则:单击“操作”列的“删除”。

● 删除一个或多个通知规则:选中一个或多个通知规则前的复选 框,单击页面上方的“删除”。

搜索通知规则 在右上角的搜索框中输入通知规则名称关键字,单击 后显示匹 配对象。

10.4 阈值规则

10.4.1 创建阈值规则

通过阈值规则可对资源的指标设置阈值条件。当指标数据满足阈值条件时产生阈值告 警,当没有指标数据上报时产生数据不足事件。

APM已对接消息通知服务(Simple Message Notification,简称SMN),通过在SMN 界面设置通知策略,当阈值规则的状态(正常、超限阈值)发生变化时,会以邮件或 短信等方式通知,以便您在第一时间发现异常并进行处理。

用户指南 10 告警中心

(46)

创建方式

阈值规则支持创建批量阈值规则,供您选择使用。

批量阈值规则(该功能仅对华北-北京一区域和华东-上海二区域生效):资源和规则是 多对一的关系,当监控多个资源时,一次创建操作完成后,只生成一条规则,多个资 源是通过同一条规则进行监控。

当需要集中监控多个资源时,您需使用静态阈值模板进行创建,操作详见使用模板创 建批量阈值规则。静态阈值模板是为创建批量阈值规则做准备的,您需先创建一个静 态阈值模板,操作详见创建静态阈值模板。

注意事项

● 针对AOM和APM,您总共可以创建不超过1000条阈值规则,如果阈值规则数量已 达上限1000条时,请删除不需要的阈值规则后重新创建。APM界面只展示APM的 阈值规则,如需查看全部规则请在AOM控制台进行查看。

● 设置通知策略

阈值规则的状态(正常、超限阈值)发生变化时,如需使用邮件或短信等方式发 送通知,请参考下面操作在SMN界面设置通知策略。如不需接收邮件或短信通 知,请跳过下面操作。具体操作如下:

a. 创建一个主题,操作详见创建主题。

b. 设置主题策略,操作详见设置主题策略。

设置主题策略时,“可发布消息的服务”必须选择“APM”,否则会导致通 知发送失败。

c. 为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详 见订阅主题。

使用模板创建批量阈值规则

该功能仅对华北-北京一区域和华东-上海二区域生效。

使用模板创建阈值规则前,请先创建一个静态阈值模板,操作详见创建静态阈值模 板。

步骤1 登录APM控制台,在左侧导航栏中选择“告警中心 > 阈值规则”。

步骤2 在右上角单击“添加批量阈值规则”。

步骤3 根据界面提示配置参数,具体如表10-5所示。

10-5 配置参数

参数 说明 示例

阈值名称 输入阈值名称。 apm

描述 输入描述信息。 -

用户指南 10 告警中心

(47)

参数 说明 示例 作用到所有应用 ● 若开关为 :当您开启后,将会针对

所有应用及服务创建一条阈值规则。

● 若开关为 :则您可自定义监控资 源,选择一个或多个资源。若监控资源为 同一应用下的所有服务,您可在“应用”

页签以应用的维度快速选择。

-

步骤4 可在搜索框中输入应用或实例名搜索资源,选择资源后,单击“下一步”。

步骤5 选择已创建的静态阈值模板和指标名称。

● 如果没有模板,可单击“创建静态阈值模板”,具体操作可参考创建静态阈值模 板。

● 如果模板较多,可在右上角的搜索框输入模板名称,进行搜索。

● 也可单击模板后的“编辑”,编辑模板。

步骤6 单击“添加”,完成创建。

----结束

更多阈值规则操作

阈值规则创建完成后,您还可以执行表10-6中的操作。

10-6 相关操作

操作 说明

修改阈值规则 单击“操作”列的“修改阈值”。

删除阈值规则 ● 删除一个阈值规则:单击“操作”列的“删除”。

● 删除一个或多个阈值规则:选中一个或多个阈值规则前的复选 框,单击页面上方的“删除”。

启、停阈值规

则 ● 在“操作”列的“更多”下拉列表框中选择“启用”。

● 在“操作”列的“更多”下拉列表框中选择“停用”。

说明

单条阈值规则不支持启、停操作。

搜索阈值规则 支持规则名称、描述和指标名称搜索,可在右上角的搜索框中输入 关键字,单击 后显示匹配对象。

查看告警 在已设的连续周期内,当某个资源的指标数据满足阈值条件时,产 生一条阈值告警。

可在左侧导航栏中选择“告警中心 > 告警列表”,在告警列表中查 看该告警。

用户指南 10 告警中心

(48)

操作 说明

查看事件 在已设的连续周期内,当某个资源没有指标数据上报时,会产生一 条数据不足的事件。

可在左侧导航栏中选择“告警中心 > 事件列表”,在事件列表中查 看该事件。

10.4.2 创建静态阈值模板

该功能仅对华北-北京一区域和华东-上海二区域生效。

静态阈值模板是为创建批量阈值规则做准备的,创建批量阈值规则操作详见使用模板 创建批量阈值规则。

注意事项

● 针对AOM和APM,您总共可以创建不超过50个静态阈值模板,如果静态阈值模板 数量已达上限50个时,请删除不需要的静态阈值模板后重新创建。APM界面只展 示APM的静态阈值模板,如需查看全部模板请在AOM控制台进行查看。

● 设置通知策略

阈值规则的状态(正常、超限阈值)发生变化时,如需使用邮件或短信等方式发 送通知,请参考下面操作在SMN界面设置通知策略。如不需接收邮件或短信通 知,请跳过下面操作。具体操作如下:

a. 创建一个主题,操作详见创建主题。

b. 设置主题策略,操作详见设置主题策略。

设置主题策略时,“可发布消息的服务”必须选择“APM”,否则会导致通 知发送失败。

c. 为主题添加相关的订阅者,即通知的接收人(例如:邮件或短信),操作详 见订阅主题。

创建静态阈值模板

步骤1 登录APM控制台,在左侧导航栏中选择“告警中心 > 阈值规则”。

步骤2 单击“静态阈值模板”页签,单击“创建静态阈值模板”。

步骤3 根据界面提示,创建静态阈值模板。

输入模板名称,选择资源类型,设置指标名称、统计方式、阈值条件等参数,选择告 警级别,选择是否发送通知。

用户指南 10 告警中心

(49)

说明

● 资源类型:当前支持JVM和SQL两种类型。

● 统计方式:指标数据按照所设置的统计方式进行聚合。

● 阈值条件:阈值告警的触发条件,由判断条件(>=、<=、>、<)和阈值组成。例如,阈值 条件设置为“>85”,表示指标的实际值大于已设置的阈值85时,生成阈值告警。

● 连续周期:连续多少个周期满足阈值条件后,发送阈值告警。

● 统计周期:指标数据按照所设置的统计周期进行聚合。

● 选择是否发阈值规则态阈值规则的状态(正常、超限阈值)发生变化时,选择是否发送邮件 或短信通知该变动。

如需使用邮件或短信方式发送通知,请选择“是”,则需设置通知策略,选择已创建的 主题,选择触发场景。

如不需接收邮件或短信通知,请选择“否”。

● 触发场景:发送通知的触发条件。触发场景包括超限阈值和恢复正常。例如,当阈值状态变 为超限阈值时,您需要收到通知,则触发场景选择超限阈值。

10-5 创建静态阈值模板

步骤4 单击“创建”。

----结束

更多静态阈值模板操作

静态阈值模板创建完成后,您还可以执行表10-7中的操作。

10-7 相关操作

操作 说明

使用静态阈值 模板创建一条 批量阈值规则

单击“操作”列的“创建规则”,操作详见使用模板创建批量阈值 规则。

用户指南 10 告警中心

(50)

操作 说明 修改静态阈值

模板

单击“操作”列的“编辑”。

删除静态阈值

模板 ● 删除一个静态阈值模板:单击“操作”列的“删除”。

● 删除一个或多个静态阈值模板:选中一个或多个静态阈值模板 前的复选框,单击页面上方的“删除”。

搜索静态阈值

模板 在右上角的搜索框中输入模板名称关键字,单击 后显示匹配对 象。

用户指南 10 告警中心

數據

表 8-1 内存区域说明 区域名称 说明 Eden Space 用于最初从线程池分配内存给大部分对象。 Survivor Space 用于保存在Eden区内存池中经过垃圾回收后没有被回收的对象。 Tenured Space 用于保持已经在Survivor区内存池中存在了一段时间的对象。 Code Cache 用于编译和保存本地代码的内存。 Permanent Space 用于保存虚拟机的静态数据,例如,类和方法对象。

參考文獻

相關文件

INFORMAÇÃO GLOBAL SOBRE AS ASSOCIAÇÕES DE SOLIDARIEDADE SOCIAL E OS SERVIÇOS SUBSIDIADOS REGULARMENTE PELO INSTITUTO DE ACÇÃO SOCIAL. STATISTICS ON SOCIAL SOLIDARITY ASSOCIATIONS

EQUIPAMENTO SOCIAL A CARGO DO INSTITUTO DE ACÇÃO SOCIAL, Nº DE UTENTES E PESSOAL SOCIAL SERVICE FACILITIES OF SOCIAL WELFARE BUREAU, NUMBER OF USERS AND STAFF. 數目 N o

INFORMAÇÃO GLOBAL SOBRE AS ASSOCIAÇÕES DE SOLIDARIEDADE SOCIAL E OS SERVIÇOS SUBSIDIADOS REGULARMENTE PELO INSTITUTO DE ACÇÃO SOCIAL. STATISTICS ON SOCIAL SOLIDARITY ASSOCIATIONS

Valor acrescentado bruto : Receitas mais variação de existências, menos compras de bens e serviços para revenda, menos comissões pagas, menos despesas de exploração. Excedente

Valor acrescentado bruto : Receitas do jogo e dos serviços relacionados menos compras de bens e serviços para venda, menos comissões pagas menos despesas de

Valor acrescentado bruto : Receitas do jogo e dos serviços relacionados menos compras de bens e serviços para venda, menos comissões pagas menos despesas de

[r]

第一步:在 VMware 按下 Install VMwave Tools 按下之後系統就會開啟安裝畫面給