I am a Technical Support Engineer based in mainland China, dedicated to helping users and teams efficiently resolve complex technical issues.
I am a Technical Support Engineer based in mainland China, dedicated to helping users and teams efficiently resolve complex technical issues.
基于 RKE2 与 NVIDIA Tesla P4 的 HAMi 使用实践
HAMi 是一个用于管理 Kubernetes 集群中异构 AI 计算设备的开源平台。其前身为 k8s-vGPU-scheduler,可在多个容器和工作负载之间实现设备共享。
本文基于 RKE2 和 NVIDIA Tesla P4 进行测试,同时使用 GPU Operator 在 GPU 节点上自动安装驱动和 Nvidia Container Toolkit。
RKE2 通过 fake-gpu-operator 使用 HAMi
fake-gpu-operator 可以在 CPU 节点上模拟 nvidia.com/gpu 资源。在没有真实 GPU 的情况下,可以用于了解 HAMi 组件组成,并验证 GPU Pod 的调度流程。
参考资料:https://project-hami.io/zh/tutorials/labs/local-fake-gpu
通过 Rancher 创建的 RKE2 和 K3s 集群支持开启 Authorized Cluster Endpoint(ACE)。
开启 ACE 后,用户可以通过集群 API Server 的 FQDN 直接访问下游集群,而无需经过 Rancher 代理转发。
Rancher Monitoring Pushprox 端口监听问题
Rancher Monitoring 会通过 PushProx 获取 kube-controller-manager、kube-scheduler 等 Kubernetes 组件的 Metrics。
其中,9369 端口是 pushprox-client 在启用 hostNetwork 后默认监听的 Metrics 端口。默认情况下,可以通过节点 IP 和该端口访问 PushProx 的 Metrics。