• 沒有找到結果。

日志说明

边缘节点会上传系统日志和应用日志,您需要在IEF控制台上打开日志开关。

● 系统日志:边缘节点上IEF软件(如edge-core、edge-logger和edge-monitor等)

产生的日志。

● 应用日志:边缘节点上部署的应用所产生的日志。

– 边缘节点会上传“/var/IEF/app/log”目录的日志,您可以在创建应用时将容 器中目录挂载到“/var/IEF/app/log/{appName}”下,具体挂载方法请参见

▪hostPath:将主机某个目录挂载到容器中。在AOM中可以按{appName}分

类查看到应用的日志。

– 边缘节点会上传容器日志,日志组件会上传“{{DOCKER_ROOT_DIR}}/

containers/{containerID}/{containerID}-json.log”文件的内容,

DOCKER_ROOT_DIR可以通过docker info命令查询到,containerID就是容 器ID。

AOM 查看日志

步骤1 登录AOM管理控制台。

步骤2 在左侧导航栏选择“日志 > 日志文件”,单击“组件”页签。

步骤3 选择集群“ief_global”和命名空间“default”。

3-18 选择集群和命名空间

步骤4 搜索应用名称,单击日志文件右侧的“查看”,即可查看详细日志。

----结束

AOM 中查看节点监控信息

您可以在AOM查看节点监控信息。

步骤1 登录AOM管理控制台。

步骤2 选择监控的节点。

3-19 选择监控节点

步骤3 单击节点名称,在“监控视图”页签下,您可以查看节点的资源使用情况,如CPU、

内存的使用率等。

3-20 查看监控信息

如果是Atlas 500智能小站,还可以查看NPU相关信息。

3-21 查看智能小站监控信息

Atlas 500智能小站的指标含义如下表所示。

名称 描述

ai_core_rate AI core占用率 ai_cpu_rate AI cpu占用率 ctrl_cpu_rate 控制cpu占用率 ddr_cap_rate ddr内存占用率 ddr_bw_rate ddr带宽占用率 node_power 节点功率 node_tempera

ture 节点温度

node_voltage 节点电压 npu_health 芯片健康状态 npu_temperat

ure 芯片温度

----结束

AOM 中查看容器监控信息

AOM中可以查看边缘节点上容器应用的监控信息。

步骤1 登录AOM管理控制台。

步骤2 选择要监控的容器工作负载。

3-22 选择工作负载

步骤3 单击工作负载名称,进入详情页面,在“监控视图”页签下,您可以设置容器的监控 指标,如CPU、内存的使用率等。

3-23 监控视图

----结束

IEF 预置的告警

IEF为每个边缘节点预置了7个告警规则,这7类告警会自动上报到AOM。

告警名称 触发条件 清除条件

容器引擎异常 边缘节点配置Docker使能时,查

询Docker信息失败 Docker正常运行,EdgeCore能 够获取到Docker信息

存活探针异常 应用配置存活探针,探针检测到 异常

容器探针检测成功

告警名称 触发条件 清除条件 申请GPU资源

失败 部署GPU应用,申请GPU资源失

败 成功申请到GPU资源

获取GPU信息

失败 边缘节点配置GPU使能时,查询

GPU信息失败 成功查询到GPU信息

AK/SK无效 EdgeHub连续10次分发临时 AK/SK,检测到过期或者状态异 常

EdgeHub成功分发临时AK/SK

应用重启 应用容器异常重启 无需清除

容器绑定网卡 异常

容器绑定的网卡发生异常 容器绑定的网卡状态正常

3-24 查看告警

AOM 中设置告警

您可以在AOM中创建阈值规则来监控边缘节点上的各项指标。

步骤1 登录AOM管理控制台。

步骤2 在左侧导航栏选择“告警 > 阈值规则”,单击右上角的“添加阈值”。

步骤3 填写阈值名称、选择资源类型。

3-25 添加阈值

步骤4 单击“下一步”,定义阈值。

3-26 设置规则

步骤5 单击“添加”,完成创建。

创建完成后,可以在规则列表中看到创建的规则。

当指标满足规则条件时会触发告警,告警可以在告警列表中查看。

----结束

上报自定义告警到 AOM

IEF支持从边缘节点上报自定义告警到AOM,使用MQTT客户端发布告警信息到MQTT broker,IEF会将告警自动上报到AOM。

具体请参见添加告警和清除告警。