前提条件
请确保已有可用的AK/SK,获取方法请参见访问密钥。
获取软件包
获取GCS-SGE命令行工具包,并将工具包上传到管理节点的“/usr/bin”目录下。此处 的管理节点为2 创建SGE集群环境中创建的管理节点,请使用弹性公网IP登录。
GCS-SGE命令行工具包为一个gcs-chpc二进制文件,其存放在cloud-cli-linux-gcs- ***.zip软件包中,登录基因容器控制台,在“总览”页面的工具中下载cloud-cli-linux-gcs-***.zip。
创建 sgecluster.conf 文件
步骤1 登录管理节点,创建“/root/.gcs/”目录。
mkdir -p /root/.gcs
步骤2 在“/root/.gcs/”目录下,创建SGE集群配置文件。
touch sgecluster.conf
SGE 集群使用指南 3 安装 GCS-SGE
说明
namespace = ***
deployname = ***
image = swr.cn-north-1.myhuaweicloud.com/genecontainer/sge-slaver:v2-obs product = SGE
timeinterval = 7
timeintervalshutdown = 2 ShutDownRounds = 2 [volume]
autoscale-prefix = short autoscale-num = 1000 [cn-long]
cpu = 2 memory = 4G
autoscale-prefix = long autoscale-num = 1000
表
3-1 sgecluster.conf 文件配置说明
参数 是否必填 参数说明
common
ak 是 配置为访问密钥中获取的Access Key Id值。
示例:JP20NN9QJSOL1TTTDKLF
sk 是 配置为访问密钥中获取的Secret Access Key值。
示例:cfXXts1YEDV5b26VmBtl8EjcMahBhSTfanBA7Xv 3
region 是 区域,请到地区和终端节点页面获取。
示例:cn-north-4
namespace 是 CCI服务中使用的Kubernetes集群namespace,
配置为2 创建SGE集群环境中选择的命名空间。
示例:cci-namespace-chpc
SGE 集群使用指南 3 安装 GCS-SGE
参数 是否必填 参数说明
deployname 否 创建容器统一携带的Label标签,便于管理容器。
取值范围:只能由小写字母、数字和中划线(-)
组成,且必须以小写字母开头,不以中划线结 尾,长度为[4, 32]个字符。
image 是 容器使用的镜像地址。该镜像Dockerfile内容请 参见6.1 计算节点容器镜像配置。
product 否 SGE或GE两种引擎,不填写是默认值为SGE
● SGE:SGE引擎
● GE:GE引擎
timeinterval 是 扩容的间隔时间,间隔多久刷新一次当前状态,
检查是否触发自动扩容。 定义了/opt/sge、 /home、/root 三个目录,必 须外挂SFS盘。
说明vol-list中定义的内容将在pvc-***和path-***中进行识 别,配置时请注意其小写字母一一对应关系。
示例:vol-list=sge,home,root
SGE 集群使用指南 3 安装 GCS-SGE
参数 是否必填 参数说明
pvc-*** 是 外挂盘在CCI中的挂载路径,配置为文件存储卷 列表中“卷名”的值。
示例:pvc-sge=cci-sfs-root pvc-home=cci-sfs-home pvc-root=cci-sfs-root
path-*** 是 外挂盘在集群中的挂载路径。
示例:path-sge=/opt/sge path-home=/home path-root=/root
[all.q]
说明
系统默认的队列,必须配置。
cpu 是 定义队列中机器的规格,如1个CPU,2GB内存。
cpu取值为正整数。
memory 是
[cn-short]
说明
用户自定义队列,非必填项,请根据实际需求配置。
cpu 是 定义队列中机器规格,如1个CPU,2GB内存。
根据定义的autoscale-prefix、autoscale-num字
参数 是否必填 参数说明
memory 是 须知
● 自定义队列中,必须配置cpu和memory字段。
● 目前CCI集群对队列规格有以下限制:
– 节点的CPU内存比在1:2-1:8之间。当CPU高于 32时,CPU会自动提升到48或64,即CPU在 [33, 48]范围内时,将自动提升为48;CPU在 [49, 64]范围内时,将自动提升为64(最大规格 可为64U 512G)。
– 总CPU数目、总内存大小、总容器数目,系统 均有限制。如果触发了限额,请提交工单。
● 基于任务规格的集群规格扩容,如果某队列规格为 2CPU 4G,但投上来的任务是16U 32G,此时任务 规格大于队列规格,但小于CCI集群规格这种情况 将触发集群规格扩容,将启动16U 32G的集群,并 纳管入cn-short队列,无任务时自动删除。
autoscale-num 否 本队列中,集群通过弹性伸缩支持的最大节点 数,不包括手动添加的节点。
例如,示例中配置为20,表明该队列弹性伸缩最 多支持20台机器。
说明
● autoscale-num和autoscale-prefix必须同时配置。
● autoscale-num规定的集群规模大小 = 该队列下前 缀为autoscale-prefix的容器 Pods 数。
autoscale-prefix 否 指定本队列中弹性拓展机器的hostname前缀。
例如,示例中配置为slaver,表明弹性扩展的主 机名称前缀为slaver。
说明
● autoscale-num和autoscale-prefix必须同时配置。
● hostname前缀只能由小写字母、数字和中划线
(-)组成,且必须以小写字母开头,不能以中划线 为结尾,长度为[4, 32]个字符。
● 对集群某个队列而言,如果有物理机,则物理机 hostname不应与 autoscale-prefix的前几位相同。
[cn-long]
说明
用户自定义队列,非必填项,请根据实际需求配置。
cpu 是 定义队列中机器规格,如1个CPU,2GB内存。
根据定义的autoscale-prefix、autoscale-num字
参数 是否必填 参数说明
memory 是 须知
● 自定义队列中,必须配置cpu和memory字段。
● 目前CCI集群对队列规格有以下限制:
– 节点的CPU内存比在1:2-1:8之间。当CPU高于 32时,CPU会自动提升到48或64,即CPU在 [33, 48]范围内时,将自动提升为48;CPU在 [49, 64]范围内时,将自动提升为64(最大规格 可为64U 512G)。
– 总CPU数目、总内存大小、总容器数目,系统 均有限制。如果触发了限额,请提交工单。
● 基于任务规格的集群规格扩容,如果某队列规格为 2CPU 4G,但投上来的任务是16U 32G,此时任务 规格大于队列规格,但小于CCI集群规格这种情况 将触发集群规格扩容,将启动16U 32G的集群,并 纳管入cn-short队列,无任务时自动删除。
autoscale-num 否 本队列中,集群通过弹性伸缩支持的最大节点 数,不包括手动添加的节点。
例如,示例中配置为20,表明该队列弹性伸缩最 多支持20台机器。
说明
● autoscale-num和autoscale-prefix必须同时配置。
● autoscale-num规定的集群规模大小 = 该队列下前 缀为autoscale-prefix的容器 Pods 数。
autoscale-prefix 否 指定本队列中弹性拓展机器的hostname前缀。
例如,示例中配置为slaver,表明弹性扩展的主 机名称前缀为slaver。
说明
● autoscale-num和autoscale-prefix必须同时配置。
● hostname前缀只能由小写字母、数字和中划线
(-)组成,且必须以小写字母开头,不能以中划线 为结尾,长度为[4, 32]个字符。
● 对集群某个队列而言,如果有物理机,则物理机 hostname不应与 autoscale-prefix的前几位相同。
步骤3 保存文件并退出。
----结束
安装 GCS-SGE
步骤1 登录管理节点,进入“/usr/bin”目录。
步骤2 赋予工具可执行权限。
chmod +x gcs-chpc
步骤3 安装GCS-SGE命令行工具。SGE 集群使用指南 3 安装 GCS-SGE
命令行终端显示如下类似信息:
Step6. Install SGE and gcs.service.
Step7. Adding nodes defined in config file.
Step6执行需要较长时间请耐心等待,若执行过程中报错,可在“/tmp/
sgeInstall.log ”文件中查看Step6报错信息。
若GCS-SGE安装失败,请检查“sgecluster.conf”文件配置是否正确,安全组中6444 端口是否开启(详情请参见配置安全组规则),问题修复后,执行gcs-chpc
sgeinstall命令重新安装。
步骤4 GCS-SGE安装完成后,退出当前Linux界面,重新登录管理节点。
重新登录管理节点后,执行service gcs.service status命令,查看GCS-SGE当前运行 状态。
Redirecting to /bin/systemctl status gcs.service
● gcs.service - Autoscaler for Gene Container Service
Loaded: loaded (/usr/lib/systemd/system/gcs.service; enabled; vendor preset: disabled) Active: active (running) since Tue 2019-06-11 09:21:01 CST; 38min ago
Main PID: 23671 (sh)
CGroup: /system.slice/gcs.service
├─23671 /bin/sh -c gcs autoscale >> /var/log/gcs.log 2>&1 └─23672 gcs autoscale
Jun 11 09:21:01 ecstest-paas-test systemd[1]: Started Autoscaler for Gene Container Service.
步骤5 使PATH等变量生效。
source /root/.bashrc
步骤6 查看计算节点是否被纳管。-步骤7 执行如下命令修改msconf文件中参数schedd_job_info的值。
qconf -msconf
将schedd_job_info改为true,便于用户可以通过命令获取收集的信息。
schedd_job_info true
----结束
相关操作
5 更新GCS-SGE
SGE 集群使用指南 3 安装 GCS-SGE