阿里云k8s部署GPU共享插件

阿里云k8s部署GPU共享插件

1、本质是一个daemonset守护进程,用来调度任务到合适的GPU服务器
2、在集群上安装云原生AI套件
3、添加一台异构计算型GPU服务器,并添加标签:

ack.node.gpu.schedule=share #开启共享调度,关闭显存隔离,关闭算力隔离
ack.node.gpu.schedule=cgpu  #开启共享调度,开启显存隔离,关闭算力隔离
ack.node.gpu.schedule=core_mem #开启共享调度,开启显存隔离,开启算力隔离
ack.node.gpu.schedule=topology #开启拓扑感知
ack.node.gpu.schedule=default #使用默认调度策略

ack.node.gpu.placement=binpack #在节点上为Pod选择GPU卡时,使用Binpack算法
ack.node.gpu.placement=spread  #在节点上为Pod选择GPU卡时,使用Spread算法

其中,如果由cgpu变成share,该节点不会关闭显存隔离能力,需要在节点卸载cGPU的Kernel Module并重启机器后才能生效。如果由share变成cgpu,该节点会直接由不支持显存隔离变成支持显存隔离。
(如果需要将集群中已存在的GPU节点切换为算力隔离模式,请先将该节点从集群中移除,然后重新加入支持算力隔离的节点池。不支持直接使用kubectl label nodes <NODE_NAME> ack.node.gpu.schedule=core_mem命令将该GPU节点切换为算力隔离模式。待验证
4、在控制机器上安装kubectl和cgpu
5、通过yaml文件部署任务

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注