查看告警信息 - 运维中心 - 服务管理 - 查看运维日志_区块链服务 BCS_用户指南_Hyperledger Fabric增强版管理_服务管理_运维中心

1.4 服务管理

1.4.2 运维中心

1.4.2.2 查看告警信息

BCS服务自身提供运维监控能力，技术支持工程师可以通过BCS查看告警信息。告警源包括BCS和CCE，常见告警参见表1-11。

说明

建议根据下表做初步筛查，如仍无法消除告警，请联系技术支持人员。

对于告警源为CCE的告警，若BCS服务相关实例状态正常，且业务正常，则请参考CCE 常见问题进行排查。

表1-11 BCS 服务常见告警

● 短暂的网络波动导致peer节点与orderer节点通信失败。

● Orderer节点本身状态异常。

如果是由于短暂的网络波动，那么该告警会在几分钟内自动 containerName的值。

图1-13 查看失败节点的 containerName

3. 登录服务所在CCE集群下的所有节点（节点需绑定弹性 IP），执行“docker ps |grep containerName”命令（如下图所示），查询到的前缀为k8s_peer（如果查询的是 orderer则是k8s_orderer）的容器即为触发告警的容器，

最前方为对应的容器ID。

图1-14 查看回显结果

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日志（CCE集群）。

4. 查看容器是否正常。

5. 若orderer节点异常，可以尝试使用“docker restart 容器 ID”命令重启节点。

6. 如果上述步骤没能帮助您解决该问题，请进入AOM页面下的“日志 > 日志文件”页签，下载发出告警的服务集群上的Peer和Orderer日志文件到本地，联系并提供给技术支持工程师进行处理。

告警名称告

存储管理”页面下查看BCS服务对应集群下绑定的peer的存储服务是否存在且正常。

● 若存储服务不存在或不正常，请创建新的存储服务并重新绑定到BCS服务；

● 若存储服务存在且正常，请根据下面的步骤处理。

3. 在“监控”页签下的活动告警中，从“资源名称”中获取 containerName的值。

图1-15 查看访问数据库失败节点的 containerName

4. 单击告警条目，根据告警信息定位发出告警的集群信息

（clusterID），以及告警的容器名称

（containerName）。

5. 进入相应的云容器引擎的“资源管理 > 存储管理”页面，

根据集群信息筛选查看服务相对应的数据库存储服务是否存在。若不存在，请根据CCE存储管理的存储卷创建方法，创建相应的存储卷并进行关联。

6. 登录服务所在CCE集群下的所有节点（节点需绑定弹性 IP），执行“docker ps |grep containerName”命令（如下图所示），查询到的前缀为k8s_peer（如果查询的是 orderer则是k8s_orderer）的容器即为触发告警的容器，

最前方为对应的容器ID。

图1-16 查看命令回显结果

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日志（CCE集群）。

告警名称告警源

处理建议

7. 使用“docker exec -it 容器ID bash”进入相应的容器。

8. 使用“find / -name production”命令，进入查找到的路径（路径如下图）。

图1-17 查看路径信息

进入上述路径后查看ledgersData/stateLeveldb/路径下的 CURRENT、LOG以及MANIFEST-000****文件是否存在。

若不存在可尝试使用“docker restart 容器ID”命令重启 Peer容器。

9. 如果上述步骤没能帮助您解决该问题，请进入AOM页面下的“日志 > 日志文件”页签，下载发出告警的服务集群上的Peer和Orderer日志文件到本地，联系并提供给技术支持工程师进行处理。

告警名称告警源

处理建议

Peer节点磁盘空间不足 BC

S Peer节点磁盘空间不足，需扩容。扩容方法如下：

1. 登录区块链服务管理控制台，在左侧导航栏单击“服务管理”，单击服务名称进入服务详情页。

2. 在“监控”页签下的活动告警中，从“资源名称”中获取 containerID的值。

图1-18 查看 containerID

3. 登录服务所在CCE集群下的所有节点（节点需绑定弹性 IP），分别执行“docker ps”命令，直到找到

CONTAINER ID对应的NAMES值，CONTAINER ID值为上一步获取的containerID的前12位。

图1-19 查看节点回显结果

假设NAMES值为“k8s_peer_peer-b738403d592c78f5463a8ccf24b4f7f8cc83d07a-0_defaul t_b28328a1-8d7d-4686-8b4f-dd4333e2b400_0”，则对

应的节点名称为“peer_peer-b738403d592c78f5463a8ccf24b4f7f8cc83d07a-0”。

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日志（CCE集群）。

4. 在BCS服务详情页，单击“更多信息 > 网络存储”，获取节点名称对应的云硬盘存储卷所在列的值，即云硬盘存储卷PVC名称。

5. 登录CCE控制台，在左侧导航栏单击“资源管理 > 存储管理”。

6. 在“云硬盘存储卷”页签下，选择BCS服务所在集群，单击PVC名称所在行的“更多 > 扩容”进行磁盘空间扩容操作。

告警名称告警源

处理建议

Orderer节点磁盘空间不足 BC

S Orderer节点磁盘空间不足，需扩容。扩容方法如下：

1. 登录区块链服务管理控制台，在左侧导航栏单击“服务管理”，单击服务名称进入服务详情页。

2. 在“监控”页签下的活动告警中，从“资源名称”中获取 containerID的值。

图1-20 查看 Orderer 节点的 containerID

3. 登录服务所在CCE集群下的所有节点（节点需绑定弹性 IP），分别执行“docker ps”命令，直到找到

CONTAINER ID对应的NAMES值，CONTAINER ID值为上一步获取的containerID的前12位。

图1-21 查看 NAMES 值

假设NAMES值为

“k8s_orderer_orderer-759ca9423d9805ed7b9b4aa274e 54a2481aaaaa5-0_default_2827a84a-dfbd-49b0-a96e-9a73b0c65a32_0”，则对应的节点名称为

“orderer_orderer-759ca9423d9805ed7b9b4aa274e54a 2481aaaaa5-0”。

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日志（CCE集群）。

4. 在BCS服务详情页，单击“更多信息 > 网络存储”，获取节点名称对应的云硬盘存储卷所在列的值，即云硬盘存储卷PVC名称。

5. 登录CCE控制台，在左侧导航栏单击“资源管理 > 存储管

告警名称告

E 请关注baas-agent、peer、orderer的Pod状态。

排查点：

1. 判断容器资源分配是否正确：

登录CCE控制台，单击左侧导航栏“工作负载 > 无状态负载”或“工作负载 > 有状态负载”，单击负载名称进入负载详情页，在“实例列表”页签中查看CPU申请量和内存申请量。

2. 判断节点资源是否充足：

登录CCE控制台，单击左侧导航栏的“资源管理 > 节点管理”，在“可分配资源”列中，查看实例所在节点的可分配CPU和可分配内存的大小。

启动重试失败 CC

E 请关注baas-agent、peer、orderer的Pod状态。

排查点：

1. 判断容器资源分配是否正确：

2. 判断节点资源是否充足：

登录CCE控制台，单击左侧导航栏的“资源管理 > 节点管理”，在“可分配资源”列中，查看实例所在节点的可分配CPU和可分配内存的大小。

状态异常 CC

E 请关注baas-agent、peer、orderer的Pod状态。

排查点：

1. 查看健康检查是否失败：登录CCE控制台，单击左侧导航栏“工作负载 > 无状态负载”或“工作负载 > 有状态负载”，单击负载名称进入负载详情页，查看“更新升级 >

高级配置 > 健康检查”中的信息。

告警名称告警源

处理建议

调度失败 CC

E 请关注baas-agent、peer、orderer的Pod状态。

排查点：

1. 判断节点资源是否充足：登录CCE控制台，单击左侧导航栏的“资源管理 > 节点管理”，在“可分配资源”列中，

查看实例所在节点的可分配CPU和可分配内存的大小。

2. 判断Pod调度策略是否正确：登录CCE控制台，单击左侧导航栏“工作负载 > 无状态负载”或“工作负载 > 有状态负载”，单击负载名称进入负载详情页，查看“ 调度策略 >

自定义调度策略”。

说明CoreDNS插件是一款通过链式插件的方式为Kubernetes提供域名解析服务的DNS服务器。CoreDNS正常运行需要集群中至少有两个节点。

因此当BCS实例所在集群中节点数量小于2个时，会频繁出现“调度失败”告警，不影响BCS功能使用。

判断方法：

1. 登录区块链服务管理控制台。

2. 在左侧导航栏，单击“服务管理”。

3. 在服务卡片上，单击区块链名称，查看区块链服务的详细信息。

4. 进入“监控”页签，单击告警所在行的“资源名称”列，查看 name的值，若name值为“coredns-”开头，则该告警为无需处理。

节点重启 CC

E 节点发生过重启。如果该节点上部署了baas-agent、peer、

orderer服务，则排查对应Pod状态是否异常。如果该节点上未部署上述服务则对BCS服务无影响。

排查点：

E 如果该节点上部署了baas-agent、peer、orderer服务，则需恢复节点状态或迁移服务到其它节点。

排查点：

1. 判断节点资源是否充足：登录CCE控制台，单击左侧导航栏的“资源管理 > 节点管理”，在“可分配资源”列中，

查看实例所在节点的可分配CPU和可分配内存的大小。

2. 重启节点。

3. 重置节点：登录CCE控制台，在左侧导航栏中选择“资源管理 > 节点管理”，单击节点后的“更多 > 重置节点”。

告警名称告警源

处理建议

节点内存资源

告警 BC

S 节点虚机内存使用率超过80%，可能原因有：

1. 短时间交易请求过多。

2. 容器所在节点内存资源规格与服务规格不匹配。

排查点：

1. 登录区块链服务管理控制台。在左侧导航栏，单击“服务管理”。

2. 在“Hyperledger Fabric增强版”页签，单击服务名称进入服务详情页。

3. 在“监控”页签下的活动告警中，从“资源名称”中获取 containerName的值。

图1-22 查看节点的 containerName 值

4. 登录云容器引擎控制，找到告警容器所在的集群节点。在

“资源管理-节点管理”页面单击节点名称进入弹性云服务器页面。

5. 在弹性云服务器页面，先将云服务关机，再单击选择“更多 > 变更规格 ”，在新打开的云服务器变更规格页面，根据情况选择合适的内存规格。

告警名称告警源

处理建议

节点内存使用率过高 BC

S 节点虚机内存使用率超过90%，可能原因有：

1. 短时间交易请求过多。

2. 容器所在节点内存资源规格与服务规格不匹配。

排查点：

1. 登录区块链服务管理控制台。在左侧导航栏，单击“服务管理”。

2. 在“Hyperledger Fabric增强版”页签，单击服务名称进入服务详情页。

3. 在“监控”页签下的活动告警中，从“资源名称”中获取 containerName的值。

图1-23 查看 containerName 的值

4. 登录云容器引擎控制，找到告警容器所在的集群节点。在

“资源管理-节点管理”页面单击节点名称进入弹性云服务器页面。

图1-24 节点管理页面

在文檔中查看运维日志_区块链服务 BCS_用户指南_Hyperledger Fabric增强版管理_服务管理_运维中心_华为云 (頁 29-39)