About

I am a Technical Support Engineer based in mainland China, dedicated to helping users and teams efficiently resolve complex technical issues.

Read more

基于 RKE2 与 NVIDIA Tesla P4 的 HAMi 使用实践

HAMi 是一个用于管理 Kubernetes 集群中异构 AI 计算设备的开源平台。其前身为 k8s-vGPU-scheduler,可在多个容器和工作负载之间实现设备共享。

本文基于 RKE2 和 NVIDIA Tesla P4 进行测试,同时使用 GPU Operator 在 GPU 节点上自动安装驱动和 Nvidia Container Toolkit。

Read more

RKE2 开启 ACE

通过 Rancher 创建的 RKE2 和 K3s 集群支持开启 Authorized Cluster Endpoint(ACE)

开启 ACE 后,用户可以通过集群 API Server 的 FQDN 直接访问下游集群,而无需经过 Rancher 代理转发。

参考文档:https://ranchermanager.docs.rancher.com/how-to-guides/new-user-guides/kubernetes-clusters-in-rancher-setup/register-existing-clusters#authorized-cluster-endpoint-support-for-rke2-and-k3s-clusters

Read more

Rancher Monitoring Pushprox 端口监听问题

Rancher Monitoring 会通过 PushProx 获取 kube-controller-managerkube-scheduler 等 Kubernetes 组件的 Metrics。

其中,9369 端口是 pushprox-client 在启用 hostNetwork 后默认监听的 Metrics 端口。默认情况下,可以通过节点 IP 和该端口访问 PushProx 的 Metrics。

Read more
You need to set client_id and slot_id to show this AD unit. Please set it in _config.yml.