• 沒有找到結果。

1.4 服务管理

1.4.2 运维中心

1.4.2.2 查看告警信息

BCS服务自身提供运维监控能力,技术支持工程师可以通过BCS查看告警信息。告警源 包括BCS和CCE,常见告警参见表1-11。

说明

建议根据下表做初步筛查,如仍无法消除告警,请联系技术支持人员。

对于告警源为CCE的告警,若BCS服务相关实例状态正常,且业务正常,则请参考CCE 常见问题 进行排查。

1-11 BCS 服务常见告警

● 短暂的网络波动导致peer节点与orderer节点通信失败。

● Orderer节点本身状态异常。

如果是由于短暂的网络波动,那么该告警会在几分钟内自动 containerName的值。

1-13 查看失败节点的 containerName

3. 登录服务所在CCE集群下的所有节点(节点需绑定弹性 IP),执行“docker ps |grep containerName”命令(如 下图所示),查询到的前缀为k8s_peer(如果查询的是 orderer则是k8s_orderer)的容器即为触发告警的容器,

最前方为对应的容器ID。

1-14 查看回显结果

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日 志(CCE集群)。

4. 查看容器是否正常。

5. 若orderer节点异常,可以尝试使用“docker restart 容器 ID”命令重启节点。

6. 如果上述步骤没能帮助您解决该问题,请进入AOM页面下 的“日志 > 日志文件”页签,下载发出告警的服务集群上 的Peer和Orderer日志文件到本地,联系并提供给技术支持 工程师进行处理。

告警名称 告

存储管理”页面下查看BCS服务对应集群下绑定的peer的 存储服务是否存在且正常。

● 若存储服务不存在或不正常,请创建新的存储服务并重 新绑定到BCS服务;

● 若存储服务存在且正常,请根据下面的步骤处理。

3. 在“监控”页签下的活动告警中,从“资源名称”中获取 containerName的值。

1-15 查看访问数据库失败节点的 containerName

4. 单击告警条目,根据告警信息定位发出告警的集群信息

(clusterID),以及告警的容器名称

(containerName)。

5. 进入相应的云容器引擎的“资源管理 > 存储管理”页面,

根据集群信息筛选查看服务相对应的数据库存储服务是否 存在。若不存在,请根据CCE存储管理的存储卷创建方法,创建 相应的存储卷并进行关联。

6. 登录服务所在CCE集群下的所有节点(节点需绑定弹性 IP),执行“docker ps |grep containerName”命令(如 下图所示),查询到的前缀为k8s_peer(如果查询的是 orderer则是k8s_orderer)的容器即为触发告警的容器,

最前方为对应的容器ID。

1-16 查看命令回显结果

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日 志(CCE集群)。

告警名称 告 警 源

处理建议

7. 使用“docker exec -it 容器ID bash”进入相应的容器。

8. 使用“find / -name production”命令,进入查找到的路 径(路径如下图)。

1-17 查看路径信息

进入上述路径后查看ledgersData/stateLeveldb/路径下的 CURRENT、LOG以及MANIFEST-000****文件是否存在。

若不存在可尝试使用“docker restart 容器ID”命令重启 Peer容器。

9. 如果上述步骤没能帮助您解决该问题,请进入AOM页面下 的“日志 > 日志文件”页签,下载发出告警的服务集群上 的Peer和Orderer日志文件到本地,联系并提供给技术支持 工程师进行处理。

告警名称 告 警 源

处理建议

Peer节点磁盘 空间不足 BC

S Peer节点磁盘空间不足,需扩容。扩容方法如下:

1. 登录区块链服务管理控制台,在左侧导航栏单击“服务管 理”,单击服务名称进入服务详情页。

2. 在“监控”页签下的活动告警中,从“资源名称”中获取 containerID的值。

1-18 查看 containerID

3. 登录服务所在CCE集群下的所有节点(节点需绑定弹性 IP),分别执行“docker ps”命令,直到找到

CONTAINER ID对应的NAMES值,CONTAINER ID值为上 一步获取的containerID的前12位。

1-19 查看节点回显结果

假设NAMES值为“k8s_peer_peer-b738403d592c78f5463a8ccf24b4f7f8cc83d07a-0_defaul t_b28328a1-8d7d-4686-8b4f-dd4333e2b400_0”,则对

应的节点名称为“peer_peer-b738403d592c78f5463a8ccf24b4f7f8cc83d07a-0”。

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日 志(CCE集群)。

4. 在BCS服务详情页,单击“更多信息 > 网络存储”,获取 节点名称对应的云硬盘存储卷所在列的值,即云硬盘存储 卷PVC名称。

5. 登录CCE控制台,在左侧导航栏单击“资源管理 > 存储管 理”。

6. 在“云硬盘存储卷”页签下,选择BCS服务所在集群,单 击PVC名称所在行的“更多 > 扩容”进行磁盘空间扩容操 作。

告警名称 告 警 源

处理建议

Orderer节点 磁盘空间不足 BC

S Orderer节点磁盘空间不足,需扩容。扩容方法如下:

1. 登录区块链服务管理控制台,在左侧导航栏单击“服务管 理”,单击服务名称进入服务详情页。

2. 在“监控”页签下的活动告警中,从“资源名称”中获取 containerID的值。

1-20 查看 Orderer 节点的 containerID

3. 登录服务所在CCE集群下的所有节点(节点需绑定弹性 IP),分别执行“docker ps”命令,直到找到

CONTAINER ID对应的NAMES值,CONTAINER ID值为上 一步获取的containerID的前12位。

1-21 查看 NAMES 值

假设NAMES值为

“k8s_orderer_orderer-759ca9423d9805ed7b9b4aa274e 54a2481aaaaa5-0_default_2827a84a-dfbd-49b0-a96e-9a73b0c65a32_0”,则对应的节点名称为

“orderer_orderer-759ca9423d9805ed7b9b4aa274e54a 2481aaaaa5-0”。

说明登录服务所在CCE集群下节点的方法可参考后台虚拟机查看运维日 志(CCE集群)。

4. 在BCS服务详情页,单击“更多信息 > 网络存储”,获取 节点名称对应的云硬盘存储卷所在列的值,即云硬盘存储 卷PVC名称。

5. 登录CCE控制台,在左侧导航栏单击“资源管理 > 存储管

告警名称 告

E 请关注baas-agent、peer、orderer的Pod状态。

排查点:

1. 判断容器资源分配是否正确:

登录CCE控制台,单击左侧导航栏“工作负载 > 无状态负 载”或“工作负载 > 有状态负载”,单击负载名称进入负 载详情页,在“实例列表”页签中查看CPU申请量和内存 申请量。

2. 判断节点资源是否充足:

登录CCE控制台,单击左侧导航栏的“资源管理 > 节点管 理”,在“可分配资源”列中,查看实例所在节点的可分 配CPU和可分配内存的大小。

启动重试失败 CC

E 请关注baas-agent、peer、orderer的Pod状态。

排查点:

1. 判断容器资源分配是否正确:

登录CCE控制台,单击左侧导航栏“工作负载 > 无状态负 载”或“工作负载 > 有状态负载”,单击负载名称进入负 载详情页,在“实例列表”页签中查看CPU申请量和内存 申请量。

2. 判断节点资源是否充足:

登录CCE控制台,单击左侧导航栏的“资源管理 > 节点管 理”,在“可分配资源”列中,查看实例所在节点的可分 配CPU和可分配内存的大小。

状态异常 CC

E 请关注baas-agent、peer、orderer的Pod状态。

排查点:

1. 查看健康检查是否失败:登录CCE控制台,单击左侧导航 栏“工作负载 > 无状态负载”或“工作负载 > 有状态负 载”,单击负载名称进入负载详情页,查看“更新升级 >

高级配置 > 健康检查”中的信息。

告警名称 告 警 源

处理建议

调度失败 CC

E 请关注baas-agent、peer、orderer的Pod状态。

排查点:

1. 判断节点资源是否充足:登录CCE控制台,单击左侧导航 栏的“资源管理 > 节点管理”,在“可分配资源”列中,

查看实例所在节点的可分配CPU和可分配内存的大小。

2. 判断Pod调度策略是否正确:登录CCE控制台,单击左侧导 航栏“工作负载 > 无状态负载”或“工作负载 > 有状态负 载”,单击负载名称进入负载详情页,查看“ 调度策略 >

自定义调度策略”。

说明CoreDNS插件是一款通过链式插件的方式为Kubernetes提供域名解析 服务的DNS服务器。CoreDNS正常运行需要集群中至少有两个节点。

因此当BCS实例所在集群中节点数量小于2个时,会频繁出现“调度失 败”告警,不影响BCS功能使用。

判断方法:

1. 登录区块链服务管理控制台。

2. 在左侧导航栏,单击“服务管理”。

3. 在服务卡片上,单击区块链名称,查看区块链服务的详细信息。

4. 进入“监控”页签,单击告警所在行的“资源名称”列,查看 name的值,若name值为“coredns-”开头,则该告警为无需处 理。

节点重启 CC

E 节点发生过重启。如果该节点上部署了baas-agent、peer、

orderer服务,则排查对应Pod状态是否异常。如果该节点上 未部署上述服务则对BCS服务无影响。

排查点:

E 如果该节点上部署了baas-agent、peer、orderer服务,则需 恢复节点状态或迁移服务到其它节点。

排查点:

1. 判断节点资源是否充足:登录CCE控制台,单击左侧导航 栏的“资源管理 > 节点管理”,在“可分配资源”列中,

查看实例所在节点的可分配CPU和可分配内存的大小。

2. 重启节点。

3. 重置节点:登录CCE控制台,在左侧导航栏中选择“资源 管理 > 节点管理”,单击节点后的“更多 > 重置节点”。

告警名称 告 警 源

处理建议

节点内存资源

告警 BC

S 节点虚机内存使用率超过80%,可能原因有:

1. 短时间交易请求过多。

2. 容器所在节点内存资源规格与服务规格不匹配。

排查点:

1. 登录区块链服务管理控制台。在左侧导航栏,单击“服务 管理”。

2. 在“Hyperledger Fabric增强版”页签,单击服务名称进 入服务详情页。

3. 在“监控”页签下的活动告警中,从“资源名称”中获取 containerName的值。

1-22 查看节点的 containerName 值

4. 登录云容器引擎控制,找到告警容器所在的集群节点。在

“资源管理-节点管理”页面单击节点名称进入弹性云服务 器页面。

5. 在弹性云服务器页面,先将云服务关机,再单击选择“更 多 > 变更规格 ”,在新打开的云服务器变更规格页面,根 据情况选择合适的内存规格。

告警名称 告 警 源

处理建议

节点内存使用 率过高 BC

S 节点虚机内存使用率超过90%,可能原因有:

1. 短时间交易请求过多。

2. 容器所在节点内存资源规格与服务规格不匹配。

排查点:

1. 登录区块链服务管理控制台。在左侧导航栏,单击“服务 管理”。

2. 在“Hyperledger Fabric增强版”页签,单击服务名称进 入服务详情页。

3. 在“监控”页签下的活动告警中,从“资源名称”中获取 containerName的值。

1-23 查看 containerName 的值

4. 登录云容器引擎控制,找到告警容器所在的集群节点。在

“资源管理-节点管理”页面单击节点名称进入弹性云服务 器页面。

1-24 节点管理页面

1-24 节点管理页面