目前MRS集群支持创建和管理如下几种类型的作业。如果处于“运行中”状态的集群 创建作业失败,请查看集群管理页面中相关组件健康情况。操作方法,请参见查看和 定制集群监控指标。
● MapReduce:提供快速并行处理大量数据的能力,是一种分布式数据处理模式和 执行环境。MRS当前支持提交MapReduce Jar程序。
● Spark:基于内存进行计算的分布式计算框架,MRS当前支持提交SparkSubmit、
Spark Script和Spark SQL作业。
– SparkSubmit:支持提交Spark Jar和Spark python程序,执行Spark application,计算和处理用户数据。
– SparkScript:支持提交SparkScript脚本,批量执行Spark SQL语句。
– Spark SQL:运用Spark提供的类似SQL的Spark SQL语言,实时查询和分析 用户数据。
● Hive:建立在Hadoop基础上的开源的数据仓库。MRS当前支持提交HiveScript脚 本,和执行Hive SQL语句。
● Flink:提供一个分布式大数据处理引擎,可对有限数据流和无限数据流进行有状 态计算。
作业列表
作业列表默认按时间顺序排列,时间最近的作业显示在最前端。各类作业列表参数说 明如表 1所示。
表3-21 作业列表参数
参数 参数说明
作业名称/ID 作业的名称,新增作业时配置。
ID是作业的唯一标识,作业新增后系统自动赋值。
用户名称 提交作业的用户名称。
参数 参数说明
作业类型 支持的作业类型:
● Distcp:导入、导出数据
● MapReduce
● Spark
● SparkSubmit
● SparkScript
● Spark SQL
● Hive SQL
● HiveScript
● Flink 说明
● 在“文件管理”页面进行文件的导入导出操作后,您可以在“作业管 理”页面查看Distcp作业。
● 只有创建集群时选择了Spark、Hive和Flink组件,并且集群处于运行 中,才能新增Spark、Hive和Flink类型的作业。
状态 显示作业的状态。
● 已提交
● 已接受
● 运行中
● 已完成
● 已终止
● 异常
执行结果 显示作业执行完成的结果。
● 未定:正在执行的作业。
● 成功:执行成功的作业。
● 终止:执行中被手动终止的作业。
● 失败:执行失败的作业。
说明
作业执行成功或失败后都不能再次执行,只能新增作业,配置作业参数后重 新提交作业。
作业提交时间 记录作业提交的开始时间。
作业结束时间 记录作业执行完成或手工停止的时间。
参数 参数说明
操作 ● 查看日志:单击“查看日志”,查看运行中的作业执行的实时 日志信息。操作方法,请参见查看作业配置信息和日志。
● 查看详情:单击“查看详情”,查看作业的详细配置信息。操 作方法,请参见查看作业配置信息和日志。
● 更多
– 停止:单击“停止”,停止正在运行的作业。操作方法,请 参见停止作业。
– 删除:单击“删除”,删除一个作业。操作方法,请参见删 除作业。
– 结果:单击“结果”,查看SparkSql和SparkScript类型的
“状态”为“已完成”且“执行结果”为“成功”的作业执 行结果。
说明
● Spark SQL作业不支持停止。
● 作业删除后不可恢复,请谨慎操作。
● 当选择保留作业日志到OBS或HDFS时,系统在作业执行结束后,将 日志压缩并存储到对应路径。因此,此类作业运行结束后,作业状 态仍然为“运行中”,需等日志存储成功后,状态变更为“已完 成”。日志存储花费时间依赖于日志大小,需要数分钟以上。
表3-22 按钮说明
按钮 说明
选择提交作业的时间区间,筛选在对应时间区间内提交的作 业。
在下拉框中选择作业执行结果,筛选作业。
● 全部:表示筛选所有的作业。
● 成功:表示筛选执行成功的作业。
● 未定:表示筛选正在执行的作业。
● 终止:表示筛选被手动终止的作业。
● 失败:表示筛选执行失败的作业。
按钮 说明
在下拉框中选择作业类型,筛选作业。
● 全部作业类型
● MapReduce
● HiveScript
● Distcp
● SparkScript
● Spark SQL
● Hive SQL
● SparkSubmit
● Flink
在搜索框中根据搜索条件输入对应内容,单击 ,搜索作 业。