1.11 行业区块链平台(公测)
1.11.2 运维监控
行业区块链平台支持实时监控平台服务、资源运行状态,通过指标、告警与日志关联 分析,快速锁定问题根源,保障业务顺畅运行。
1.11.2.1 查看监控
技术支持工程师可以通过行业区块链平台查看监控指标信息。
步骤1 登录区块链服务管理控制台。
步骤2 单击左侧导航栏中的“行业区块链平台”。
步骤3 单击政务区块链平台实例,进入实例详情页面。
步骤4 在“监控”页签,可查看服务监控和实例监控。
● 服务监控:可查看服务的CPU使用率、物理内存使用率等信息。
● 实例监控:可查看ugserver和etcd信息,包括CPU使用率、磁盘读取速率、磁盘写 入速率、上行Bps、下行Bps等信息。
您可以单击实例名称后面的“监控”,查看最近15分钟的数据信息。在实例监控 页面,您也可以单击“更多监控”,查看更多监控信息。
图1-92 服务监控
图1-93 实例监控
----结束
1.11.2.2 查看告警
技术支持工程师可以通过行业区块链平台查看告警信息。告警源为CCE,常见告警参见 表1-26。
表1-26 常见告警
创建失败 CCE 请关注ugserver和etcd的Pod的状态。
排查点:
1. 判断容器资源分配是否正确:登录CCE控制台,单击左 侧导航栏“工作负载 > 无状态负载”或“工作负载 > 有 状态负载”,单击负载名称进入负载详情页,在“实例 列表”页签中查看CPU申请量和内存申请量。
2. 判断节点资源是否充足:登录CCE控制台,单击左侧导 航栏的“资源管理 > 节点管理”,在“可分配资源”列 中,查看实例所在节点的可分配CPU和可分配内存的大 小。
启动重试失败 CCE 请关注ugserver和etcd的Pod状态。
排查点:
1. 判断容器资源分配是否正确:登录CCE控制台,单击左 侧导航栏“工作负载 > 无状态负载”或“工作负载 > 有 状态负载”,单击负载名称进入负载详情页,在“实例 列表”页签中查看CPU申请量和内存申请量。
2. 判断节点资源是否充足:登录CCE控制台,单击左侧导 航栏的“资源管理 > 节点管理”,在“可分配资源”列 中,查看实例所在节点的可分配CPU和可分配内存的大 小。
告警名称 告警 源
处理建议
调度失败 CCE 请关注ugserver和etcd的Pod状态。
排查点:
1. 判断节点资源是否充足:登录CCE控制台,单击左侧导 航栏的“资源管理 > 节点管理”,在“可分配资源”列 中,查看实例所在节点的可分配CPU和可分配内存的大 小。
2. 判断Pod调度策略是否正确:登录CCE控制台,单击左侧 导航栏“工作负载 > 无状态负载”或“工作负载 > 有状 态负载”,单击负载名称进入负载详情页,查看“调度 策略”。
说明CoreDNS插件是一款通过链式插件的方式为Kubernetes提供域名解 析服务的DNS服务器。CoreDNS正常运行需要集群中至少有两个节 点。因此当BCS实例所在集群中节点数量小于2个时,会频繁出现
“调度失败”告警,不影响BCS功能使用。
判断方法: name的值,若name值为“coredns-”开头,则该告警为无需 处理。
节点重启 CCE 节点发生过重启。如果该节点上部署了ugserver和etcd的 Pod服务,则排查对应Pod状态是否异常。如果该节点上未 部署上述服务则对BCS服务无影响。
排查点:
1. 是否由于人为操作(关机、重启等)导致重启。
2. 是否由于节点资源过载导致重启:登录AOM控制台,单 击左侧导航栏的“监控 > 主机监控”,查看CPU使用率 和内存使用率。
节点状态异常 CCE 如果该节点上部署了ugserver和etcd的Pod服务,则需恢复 节点状态或迁移服务到其它节点。
排查点:
判断节点资源是否充足:登录CCE控制台,单击左侧导航栏 的“资源管理 > 节点管理”,在“可分配资源”列中,查 看实例所在节点的可分配CPU和可分配内存的大小。
查看告警
步骤1 登录区块链服务管理控制台。
步骤3 单击政务区块链平台实例,进入实例详情页面。
步骤4 单击“监控”页签,可查看告警信息。这里展示的是与该区块链服务相关的告警,告 警源为CCE。在右上角可以选择查看“近30分钟”、“近1小时”或“近1天”的告 警,也可以输入告警名称搜索告警。
图1-94 告警统计信息
步骤5 单击告警名称,例如“调度失败”,查看告警详情。告警源为CCE,告警处理建议参见 表1-26。
----结束
1.11.2.3 设置告警阈值 背景信息
区块链服务对接应用运维管理服务(Application Operations Management),为技 术支持工程师提供一站式立体运维平台,实时监控服务、资源运行状态,通过指标、
告警与日志关联分析,快速锁定问题根源,保障业务顺畅运行。
设置阈值
当技术支持工程师需要关心行业区块链平台实例指标时,就可以使用AOM服务根据指 定维度设置指标阈值。
步骤1 进入AOM控制台,在AOM界面中创建阈值规则。
1. 在左侧导航栏中选择“告警 >阈值规则”,单击“添加阈值”,展开安装了BCS的 集群下的主机,设置“阈值名称”,选择“创建方式”、“资源类型”等参数,
单击“下一步”。
2. ,可以参照下图设置阈值条件。
图1-95 设置阈值规则
----结束
1.11.2.4 查看日志
背景信息
在使用行业区块链平台的过程中,如果遇到异常情况,可以通过查看运维日志来帮助 分析、定位问题,快速高效地进行设备运维管理。本章主要指导如何通过前台界面以 及后台虚拟机查看CCE集群下部署的行业区块链平台各节点的运维日志。
表1-27 行业区块链平台用户实例日志 服务组
件
说明 日志路径
ugserve
r 运行日志 /var/paas/sys/log/ugbaas/ugbaas.log
baas-etcd 运行日志 /opt/cloud/logs/baas-etcd/baas-etcd.log
行业区块链平台实例界面查看日志
步骤1 登录区块链服务控制台。
步骤2 在左侧导航栏选择“行业区块链平台”,单击行业区块链平台实例名称,进入详情 页,在“日志” 页面可查看实例最近5分钟的日志信息,包括日志文件名、产生时间 和日志内容。
AOM 控制台界面查看日志
步骤1 在“云容器引擎CCE > 工作负载”页面查看并记录节点名称。
1. 单击“工作负载名称 > 无状态负载”,选择行业区块链平台所在集群,查看并记 录ugserver工作负载名称,例如“ugserver”。
2. 单击“ 工作负载名称 > 有状态负载”,选择行业区块链平台所在集群,查看并记 录etcd工作负载名称,例如“baas-etcd”。
步骤2 进入AOM控制台,在AOM界面中查看日志。
1. 在AOM左侧导航栏中选择“日志 > 日志文件”,选择行业区块链平台所在集群。
2. 单击“开启实时查看”,实时查看运维日志。
----结束
后台虚拟机查看运维日志
步骤1 在“云容器引擎 CCE > 工作负载”页面查看节点名称,方法请参见:AOM控制台界面 查看日志。
步骤2 在“云容器引擎 > 资源管理 > 节点管理”页面中,选择行业区块链平台实例所在集 群,查看节点的弹性公网地址。
说明
行业区块链平台实例部署节点需绑定弹性IP。
步骤3 登录访问地址对应的虚拟机,在“/var/paas/sys/log/ugbaas/ugbaas.log”路径下,查 看运维日志。
----结束