本手册基于华为云MapReduce服务实践所编写,用于指导您使用Spark实现车主驾驶 行为分析。
本实践基本内容如下所示:
1. 场景描述
2. 第一步:创建集群
3. 第二步:准备Spark样例程序和样例数据
4. 第三步:创建作业
5. 第四步:查看作业执行结果
场景描述
目的:
了解MRS的基本功能,利用MRS服务的Spark2x组件,对车主的驾驶行为进行分析统 计,得到用户驾驶行为的分析结果。
场景:
本次实战的原始数据为车主的驾驶行为信息,包括车主在日常的驾驶行为中,是否急 加速、急减速、空挡滑行、超速、疲劳驾驶等信息。通过Spark2x组件的强大的分析能 力,分析统计指定时间段内,车主急加速、急减速、空挡滑行、超速、疲劳驾驶等违 法行为的次数。
说明
本实践仅适用于MRS 3.x版本,请按照指导创建集群。
创建集群
步骤1 登录华为云管理控制台。
步骤3 单击页面右上角“购买集群”,进入购买集群页面。
图1-1 购买集群
步骤4 选择“自定义购买”。
参见表1-1配置集群软件信息。
表1-1 软件配置
参数名称 配置方式
区域 选择“华北-北京四”。
说明本指导以“华北-北京四”为例进行介绍,如果您需要选择其他区域进行操
作,请确保所有操作均在同一区域进行。
集群名称 mrs_demo 集群版本 选择MRS 3.x。
说明本实践仅适用于MRS 3.x版本,请选择对应版本集群。
集群类型 选择“分析集群”,用来做离线数据分析。
组件选择 勾选所有组件。
元数据 选择“本地元数据”。
图1-2 自定义购买-软件配置
步骤5 单击“下一步”配置硬件信息。
参见表1-2配置集群硬件信息。
表1-2 硬件配置
参数名称 配置方式
计费模式 按需计费
可用区 可用区2
虚拟私有云 选择需要创建集群的VPC,单击“查看虚拟私有云”进入VPC服务 查看已创建的VPC名称和ID。如果没有VPC,需要创建一个新的 VPC。
子网 选择需要创建集群的子网,可进入VPC服务查看VPC下已创建的子 网名称和ID。若VPC下未创建子网,请单击“创建子网”进行创
参数名称 配置方式
安全组 选择“自动创建”。
弹性公网IP 选择“暂不绑定”。
企业项目 选择“default”。
集群节点 保持默认值。
图1-3 自定义购买-硬件配置
步骤6 单击“下一步”,高级配置页签参考表1-3配置以下信息,其他选项保持默认值。
表1-3 高级配置 Kerberos认证
单击 来关闭Kerberos认证。
用户名 Manager管理员用户,目前默认为admin用户。
密码 配置Manager管理员用户的密码。
确认密码 再次输入Manager管理员用户的密码。
登录方式 选择“密码”。
用户名 用于登录弹性云服务器的用户,目前默认为root用户。
密码 配置登录ECS的用户密码。
确认密码 再次输入登录ECS的用户密码。
通信安全授权 勾选“确认授权”。
图1-4 自定义购买-高级配置
步骤7 单击“立即购买”,进入任务提交成功页面。
步骤8 单击“返回集群列表”,可以查看到集群创建的状态。
集群创建需要时间,所创集群的初始状态为“启动中”,创建成功后状态更新为“运 行中”,请您耐心等待。
----结束
准备 Spark2x 样例程序和样例数据
步骤1 创建OBS并行文件系统,用于存放Spark样例程序、样例数据、作业执行结果和日志。
1. 登录华为云管理控制台。
2. 在“服务列表”中,选择“存储 > 对象存储服务”。
3. 单击“并行文件系统 > 创建并行文件系统”,创建一个名称为obs-demo-analysis-hwt4的文件系统。策略等参数保持默认值。
图1-5 创建并行文件系统
步骤2 单击obs-demo-analysis-hwt4文件系统名称。选择左侧导航栏“文件”,在“文件”
页签下单击“新建文件夹”,分别新建program、input文件夹,如图1-6所示。
图1-6 新建文件夹
步骤3 从 https://mrs-obs-cn-north-4.obs.cn-north-4.myhuaweicloud.com/mrs-demon-samples/demon/driver_behavior.jar路径下载样例程序driver_behavior.jar 至本地。
步骤4 进入program文件夹,单击“上传文件”,选择本地存放的driver_behavior.jar样例程 序。
步骤5 单击“上传”,上传样例程序到OBS桶。
步骤6 从https://mrs-obs-cn-north-4.obs.cn-north-4.myhuaweicloud.com/mrs-demon-samples/demon/detail-records.zip获取Spark样例数据到本地。
步骤7 解压获取到的Spark样例数据。
步骤8 进入input文件夹,单击“上传文件”,选择本地存放的Spark样例数据。
步骤9 单击“上传”,上传样例数据到OBS文件系统。
----结束
创建作业
步骤1 在MRS控制台左侧导航栏选择“集群列表 > 现有集群”,单击名称为“mrs_demo”
的集群。
作业类型 选择“SparkSubmit”。
作业名称 输入“driver_behavior_task”。
执行程序路径 单击“OBS”,选择准备Spark2x样例程序和样例数据 中上传的名称为driver_behavior.jar的jar包。
图1-8 添加作业
步骤4 单击“确定”,开始提交作业,执行程序。
----结束
查看作业执行结果
步骤1 进入“作业管理”页面,查看作业执行状态。
图1-9 作业执行状态
步骤2 等待1~2分钟,登录OBS控制台,进入obs-demo-analysis-hwt4文件系统的output目 录中,查看执行结果,在生成的csv文件所在行的“操作”列单击“下载”按钮将该文 件下载到本地。
图1-10 下载作业执行结果
步骤3 在本地将下载后的csv文件使用Excel文本打开,按照样例程序中定义的字段为每列数据 进行分类,得到如下图所示作业执行结果。
图1-11 执行结果
----结束