有奖捉虫:行业应用 & 管理与支持文档专题 HOT

在集群中添加的新用户,如何在节点间进行同步?

创建集群的时候,指定参数:--AccountType NIS,NIS 的 server 端会安装在 manager 节点上,然后通过以下步骤可以进行 user 同步:
1. 在 manager 节点创建新用户。
2. 在 manager 节点,执行 make -C /var/yp 其他节点都可以感知到新添加的 user。

使用 NIS 同步用户后,在管控节点上使用新用户提交任务失败如何处理?

排查方法:在管控节点上通过 ssh 登录到计算节点,查看 /var/log/slurmd.log 的日志,查看具体的报错原因是否为用户权限相关。
问题原因:当前用户在管控节点当前目录下提交任务,计算节点的用户也会在相同的目录下进行读写操作,如果计算节点提交任务的目录不存在或者当前用户无权限执行读写操作,任务便会提交失败。
解决方法:确保创建的用户在管控节点和计算节点上都存在,且都在拥有读写权限的目录下执行任务。

tccli 发生报错 'module' object has no attribute 'xxx' 如何处理?

报错原因:tccli 升级时,不会更新配置,如果接口版本更新,会默认指定旧版本。
解决方法: 在命令行运行如下命令,将版本设置为2022-04-01(最新版本)。
tccli configure set thpc.version 2022-04-01

产品如何进行计费分类?

创建集群(CreateCluster) 接口存在 Tags 参数(Tag 数组类型), 通过填写 Tag,能够关联集群内所有资源,包括 CVM、云硬盘、VPC、CFS 等资源,添加节点(AddNodes) 接口添加的节点也会添加集群创建时填写的标签信息。
注意
弹性伸缩出来的实例,需要在弹性伸缩控制台添加标签,THPC 无法为弹性伸缩的关联实例添加标签。
"Tags": [
{"Key": "type", "Value": "compute"}
]
资源计费情况可以在费用中心的 账单概览,通过按照标签分类进行查看。

Slurm 集群如何添加队列?

目前,THPC 的所有队列信息都在 /opt/slurm/etc/slurm_queue.conf 文件里面维护。您可以通过以下命令添加队列:
vi /opt/slurm/etc/slurm_queue.conf
?
# 在文件末尾添加一行。 QueueName 为分区名称,由用户自定义,对应 BindAutoScalingGroup 和 AddNodes 接口中的 QueueName 参数。Nodes 指向 dummynode0 节点即可,dummynode0 为一个不可达节点,用于完全弹性队列。
PartitionName=<QueueName> Nodes=dummynode0 MaxTime=INFINITE State=UP

如何使用自定义镜像创建集群?

1. CVM 购买页 购买和计算节点实例类型一致的 CVM 机型(您需要选择 CentOS 7.8/7.9镜像)。
2. 在 CVM 控制台的 实例 页面,找到步骤1创建的机器,单击更多 > 制作镜像,完成自定义镜像制作。
说明
镜像制作后,您可以将用于制作镜像的 CVM 资源删除。
?
?
?
3. 在 CVM 控制台的镜像 > 自定义镜像 页面,找到步骤2创建的自定义镜像,复制镜像 ID。
?
?
4. 在创建集群时传入自定义镜像 ID 即可。


http://www.vxiaotou.com