阿里云k8s部署GPU共享插件
1、本质是一个daemonset守护进程,用来调度任务到合适的GPU服务器2、在集群上安装云原生AI套件3、添加一台异构计算型GPU服务器,并添加标签: ack…
pod对应
deploymentjobdaemonsetstatefulset
算力分割yaml文件踩坑
yaml文件的nodeselector的值应为core_mem,被我写成了core-mem,导致pod一直pending,报错没有匹配的节点
基于 Kubernetes 的 GPU 共享调度与迁移改造实践
https://www.codenong.com/js9f04f812dc3d/
一文学会 K8S故障处理
https://www.jianshu.com/p/f3659c381ec7
K8S中的daemonset
https://qa.1r1g.com/sf/ask/3365473751/https://blog.csdn.net/weixin_60092693/arti…
K8S中的SA和UA
https://blog.csdn.net/weixin_46403879/article/details/107732726
K8S中的Role/ClusterRole/ClusterRoleBinding
https://blog.csdn.net/weixin_37337210/article/details/112757500https://blog.csdn…
k8s驱逐节点的三种方式
https://blog.csdn.net/erhaiou2008/article/details/104986006/