• 沒有找到結果。

前提条件

请确保已有可用的AK/SK,获取方法请参见访问密钥。

获取软件包

获取GCS-SGE命令行工具包,并将工具包上传到管理节点的“/usr/bin”目录下。此处 的管理节点为2 创建SGE集群环境中创建的管理节点,请使用弹性公网IP登录。

GCS-SGE命令行工具包为一个gcs-chpc二进制文件,其存放在cloud-cli-linux-gcs- ***.zip软件包中,登录基因容器控制台,在“总览”页面的工具中下载cloud-cli-linux-gcs-***.zip。

创建 sgecluster.conf 文件

步骤1 登录管理节点,创建“/root/.gcs/”目录。

mkdir -p /root/.gcs

步骤2 在“/root/.gcs/”目录下,创建SGE集群配置文件。

touch sgecluster.conf

SGE 集群使用指南 3 安装 GCS-SGE

说明

namespace = ***

deployname = ***

image = swr.cn-north-1.myhuaweicloud.com/genecontainer/sge-slaver:v2-obs product = SGE

timeinterval = 7

timeintervalshutdown = 2 ShutDownRounds = 2 [volume]

autoscale-prefix = short autoscale-num = 1000 [cn-long]

cpu = 2 memory = 4G

autoscale-prefix = long autoscale-num = 1000

3-1 sgecluster.conf 文件配置说明

参数 是否必填 参数说明

common

ak 是 配置为访问密钥中获取的Access Key Id值。

示例:JP20NN9QJSOL1TTTDKLF

sk 是 配置为访问密钥中获取的Secret Access Key值。

示例:cfXXts1YEDV5b26VmBtl8EjcMahBhSTfanBA7Xv 3

region 是 区域,请到地区和终端节点页面获取。

示例:cn-north-4

namespace 是 CCI服务中使用的Kubernetes集群namespace,

配置为2 创建SGE集群环境中选择的命名空间。

示例:cci-namespace-chpc

SGE 集群使用指南 3 安装 GCS-SGE

参数 是否必填 参数说明

deployname 否 创建容器统一携带的Label标签,便于管理容器。

取值范围:只能由小写字母、数字和中划线(-)

组成,且必须以小写字母开头,不以中划线结 尾,长度为[4, 32]个字符。

image 是 容器使用的镜像地址。该镜像Dockerfile内容请 参见6.1 计算节点容器镜像配置。

product 否 SGE或GE两种引擎,不填写是默认值为SGE

● SGE:SGE引擎

● GE:GE引擎

timeinterval 是 扩容的间隔时间,间隔多久刷新一次当前状态,

检查是否触发自动扩容。 定义了/opt/sge、 /home、/root 三个目录,必 须外挂SFS盘。

说明vol-list中定义的内容将在pvc-***和path-***中进行识 别,配置时请注意其小写字母一一对应关系。

示例:vol-list=sge,home,root

SGE 集群使用指南 3 安装 GCS-SGE

参数 是否必填 参数说明

pvc-*** 是 外挂盘在CCI中的挂载路径,配置为文件存储卷 列表中“卷名”的值。

示例:pvc-sge=cci-sfs-root pvc-home=cci-sfs-home pvc-root=cci-sfs-root

path-*** 是 外挂盘在集群中的挂载路径。

示例:path-sge=/opt/sge path-home=/home path-root=/root

[all.q]

说明

系统默认的队列,必须配置。

cpu 是 定义队列中机器的规格,如1个CPU,2GB内存。

cpu取值为正整数。

memory 是

[cn-short]

说明

用户自定义队列,非必填项,请根据实际需求配置。

cpu 是 定义队列中机器规格,如1个CPU,2GB内存。

根据定义的autoscale-prefix、autoscale-num字

参数 是否必填 参数说明

memory 是 须知

● 自定义队列中,必须配置cpu和memory字段。

● 目前CCI集群对队列规格有以下限制:

– 节点的CPU内存比在1:2-1:8之间。当CPU高于 32时,CPU会自动提升到48或64,即CPU在 [33, 48]范围内时,将自动提升为48;CPU在 [49, 64]范围内时,将自动提升为64(最大规格 可为64U 512G)。

– 总CPU数目、总内存大小、总容器数目,系统 均有限制。如果触发了限额,请提交工单。

● 基于任务规格的集群规格扩容,如果某队列规格为 2CPU 4G,但投上来的任务是16U 32G,此时任务 规格大于队列规格,但小于CCI集群规格这种情况 将触发集群规格扩容,将启动16U 32G的集群,并 纳管入cn-short队列,无任务时自动删除。

autoscale-num 否 本队列中,集群通过弹性伸缩支持的最大节点 数,不包括手动添加的节点。

例如,示例中配置为20,表明该队列弹性伸缩最 多支持20台机器。

说明

● autoscale-num和autoscale-prefix必须同时配置。

● autoscale-num规定的集群规模大小 = 该队列下前 缀为autoscale-prefix的容器 Pods 数。

autoscale-prefix 否 指定本队列中弹性拓展机器的hostname前缀。

例如,示例中配置为slaver,表明弹性扩展的主 机名称前缀为slaver。

说明

● autoscale-num和autoscale-prefix必须同时配置。

● hostname前缀只能由小写字母、数字和中划线

(-)组成,且必须以小写字母开头,不能以中划线 为结尾,长度为[4, 32]个字符。

● 对集群某个队列而言,如果有物理机,则物理机 hostname不应与 autoscale-prefix的前几位相同。

[cn-long]

说明

用户自定义队列,非必填项,请根据实际需求配置。

cpu 是 定义队列中机器规格,如1个CPU,2GB内存。

根据定义的autoscale-prefix、autoscale-num字

参数 是否必填 参数说明

memory 是 须知

● 自定义队列中,必须配置cpu和memory字段。

● 目前CCI集群对队列规格有以下限制:

– 节点的CPU内存比在1:2-1:8之间。当CPU高于 32时,CPU会自动提升到48或64,即CPU在 [33, 48]范围内时,将自动提升为48;CPU在 [49, 64]范围内时,将自动提升为64(最大规格 可为64U 512G)。

– 总CPU数目、总内存大小、总容器数目,系统 均有限制。如果触发了限额,请提交工单。

● 基于任务规格的集群规格扩容,如果某队列规格为 2CPU 4G,但投上来的任务是16U 32G,此时任务 规格大于队列规格,但小于CCI集群规格这种情况 将触发集群规格扩容,将启动16U 32G的集群,并 纳管入cn-short队列,无任务时自动删除。

autoscale-num 否 本队列中,集群通过弹性伸缩支持的最大节点 数,不包括手动添加的节点。

例如,示例中配置为20,表明该队列弹性伸缩最 多支持20台机器。

说明

● autoscale-num和autoscale-prefix必须同时配置。

● autoscale-num规定的集群规模大小 = 该队列下前 缀为autoscale-prefix的容器 Pods 数。

autoscale-prefix 否 指定本队列中弹性拓展机器的hostname前缀。

例如,示例中配置为slaver,表明弹性扩展的主 机名称前缀为slaver。

说明

● autoscale-num和autoscale-prefix必须同时配置。

● hostname前缀只能由小写字母、数字和中划线

(-)组成,且必须以小写字母开头,不能以中划线 为结尾,长度为[4, 32]个字符。

● 对集群某个队列而言,如果有物理机,则物理机 hostname不应与 autoscale-prefix的前几位相同。

步骤3 保存文件并退出。

----结束

安装 GCS-SGE

步骤1 登录管理节点,进入“/usr/bin”目录。

步骤2 赋予工具可执行权限。

chmod +x gcs-chpc

步骤3 安装GCS-SGE命令行工具。

SGE 集群使用指南 3 安装 GCS-SGE

命令行终端显示如下类似信息:

Step6. Install SGE and gcs.service.

Step7. Adding nodes defined in config file.

Step6执行需要较长时间请耐心等待,若执行过程中报错,可在“/tmp/

sgeInstall.log ”文件中查看Step6报错信息。

若GCS-SGE安装失败,请检查“sgecluster.conf”文件配置是否正确,安全组中6444 端口是否开启(详情请参见配置安全组规则),问题修复后,执行gcs-chpc

sgeinstall命令重新安装。

步骤4 GCS-SGE安装完成后,退出当前Linux界面,重新登录管理节点。

重新登录管理节点后,执行service gcs.service status命令,查看GCS-SGE当前运行 状态。

Redirecting to /bin/systemctl status gcs.service

● gcs.service - Autoscaler for Gene Container Service

Loaded: loaded (/usr/lib/systemd/system/gcs.service; enabled; vendor preset: disabled) Active: active (running) since Tue 2019-06-11 09:21:01 CST; 38min ago

Main PID: 23671 (sh)

CGroup: /system.slice/gcs.service

├─23671 /bin/sh -c gcs autoscale >> /var/log/gcs.log 2>&1 └─23672 gcs autoscale

Jun 11 09:21:01 ecstest-paas-test systemd[1]: Started Autoscaler for Gene Container Service.

步骤5 使PATH等变量生效。

source /root/.bashrc

步骤6 查看计算节点是否被纳管。

-步骤7 执行如下命令修改msconf文件中参数schedd_job_info的值。

qconf -msconf

将schedd_job_info改为true,便于用户可以通过命令获取收集的信息。

schedd_job_info true

----结束

相关操作

5 更新GCS-SGE

SGE 集群使用指南 3 安装 GCS-SGE

4 GCS-SGE 常用操作

相關文件