阿里云k8s部署GPU共享插件

2022年7月7日 Jalon Comments 0 Comment

1、本质是一个daemonset守护进程，用来调度任务到合适的GPU服务器
2、在集群上安装云原生AI套件
3、添加一台异构计算型GPU服务器，并添加标签：

ack.node.gpu.schedule=share #开启共享调度，关闭显存隔离，关闭算力隔离
ack.node.gpu.schedule=cgpu  #开启共享调度，开启显存隔离，关闭算力隔离
ack.node.gpu.schedule=core_mem #开启共享调度，开启显存隔离，开启算力隔离
ack.node.gpu.schedule=topology #开启拓扑感知
ack.node.gpu.schedule=default #使用默认调度策略

ack.node.gpu.placement=binpack #在节点上为Pod选择GPU卡时，使用Binpack算法
ack.node.gpu.placement=spread  #在节点上为Pod选择GPU卡时，使用Spread算法

其中，如果由cgpu变成share，该节点不会关闭显存隔离能力，需要在节点卸载cGPU的Kernel Module并重启机器后才能生效。如果由share变成cgpu，该节点会直接由不支持显存隔离变成支持显存隔离。
（如果需要将集群中已存在的GPU节点切换为算力隔离模式，请先将该节点从集群中移除，然后重新加入支持算力隔离的节点池。不支持直接使用kubectl label nodes <NODE_NAME> ack.node.gpu.schedule=core_mem命令将该GPU节点切换为算力隔离模式。待验证）
4、在控制机器上安装kubectl和cgpu
5、通过yaml文件部署任务

Jalon's Xlog

深度还是有趣？

阿里云k8s部署GPU共享插件

2022年7月7日 Jalon Comments 0 Comment

发表回复取消回复

发表回复 取消回复

发表回复取消回复