[llvm-zorg] Set up libc++ premerge testing runner sets. (#474)

cmtice · web-flow · commit e95f358d77b3 · 2025-06-25T09:43:32.000-07:00
Create new runner sets for  libc++ premerge testing in the LLVM Github premerge testing infrastructure.
diff --git a/premerge/gke_cluster/main.tf b/premerge/gke_cluster/main.tf
@@ -65,6 +65,38 @@ resource "google_container_node_pool" "llvm_premerge_linux" {
   }
 }
 
+resource "google_container_node_pool" "llvm_premerge_libcxx" {
+  name               = "llvm-premerge-libcxx"
+  location           = var.region
+  cluster            = google_container_cluster.llvm_premerge.name
+  initial_node_count = 0
+
+  autoscaling {
+    total_min_node_count = 0
+    total_max_node_count = 32
+  }
+
+  node_config {
+    machine_type = var.libcxx_machine_type
+    taint {
+      key    = "premerge-platform-libcxx"
+      value  = "linux-libcxx"
+      effect = "NO_SCHEDULE"
+    }
+    labels = {
+      "premerge-platform-libcxx" : "linux-libcxx"
+    }
+    disk_size_gb = 200
+    # Terraform wants to recreate the node pool everytime whe running
+    # terraform apply unless we explicitly set this.
+    # TODO(boomanaiden154): Look into why terraform is doing this so we do
+    # not need this hack.
+    resource_labels = {
+      "goog-gke-node-pool-provisioning-model" = "on-demand"
+    }
+  }
+}
+
 resource "google_container_node_pool" "llvm_premerge_windows" {
   name               = "llvm-premerge-windows"
   location           = var.region
diff --git a/premerge/gke_cluster/variables.tf b/premerge/gke_cluster/variables.tf
@@ -18,6 +18,11 @@ variable "windows_machine_type" {
   type        = string
 }
 
+variable "libcxx_machine_type" {
+  description = "The type of machine to use for libcxx instances (linux)"
+  type        = string
+}
+
 variable "service_node_pool_locations" {
   description = "The location to run the service node pool in"
   type        = list(any)
diff --git a/premerge/libcxx_runners_values.yaml b/premerge/libcxx_runners_values.yaml
@@ -0,0 +1,47 @@
+githubConfigUrl: "https://github.com/llvm"
+githubConfigSecret: "github-token"
+
+minRunners: 0
+maxRunners: 32
+
+runnerGroup: ${ runner_group_name }
+
+template:
+  metadata:
+    annotations:
+      cluster-autoscaler.kubernetes.io/safe-to-evict: "false"
+  spec:
+    tolerations:
+    - key: "premerge-platform-libcxx"
+      operator: "Equal"
+      value: "linux-libcxx"
+      effect: "NoSchedule"
+    nodeSelector:
+      premerge-platform-libcxx: linux
+    containers:
+    - name: runner
+      image: ${ runner_image }
+      command: ["/home/gha/actions-runner/run.sh"]
+      resources:
+        # If we don't set the CPU request high-enough here, 2 runners might
+        # be scheduled on the same pod, meaning 2 jobs, and they will starve
+        # each other.
+        #
+        # This number should be:
+        #  - greater than number_of_cores / 2:
+        #    A value lower than that could allow the scheduler to put 2
+        #    runners on the same node. Meaning 2 jobs sharing the resources of
+        #    a single node.
+        #  - lower than number_of_cores:
+        #    Each pod has some basic services running (metrics for ex). Those
+        #    already require some amount of CPU (~0.5). This means we don't
+        #    exactly have N cores to allocate, but N - epsilon.
+        #
+        # We also need to request sufficient memory to not get OOM killed.
+        requests:
+          cpu: 28
+          memory: "100Gi"
+        limits:
+          cpu: 32
+          memory: "128Gi"
+
diff --git a/premerge/main.tf b/premerge/main.tf
@@ -47,6 +47,7 @@ module "premerge_cluster_us_central" {
   source               = "./gke_cluster"
   cluster_name         = "llvm-premerge-cluster-us-central"
   region               = "us-central1-a"
+  libcxx_machine_type  = "n2d-standard-32"
   linux_machine_type   = "n2-standard-64"
   windows_machine_type = "n2-standard-32"
 }
@@ -59,6 +60,7 @@ module "premerge_cluster_us_west" {
   source                      = "./gke_cluster"
   cluster_name                = "llvm-premerge-cluster-us-west"
   region                      = "us-west1"
+  libcxx_machine_type         = "n2d-standard-32"
   linux_machine_type          = "n2d-standard-64"
   windows_machine_type        = "n2d-standard-32"
   service_node_pool_locations = ["us-west1-a"]
diff --git a/premerge/premerge_resources/main.tf b/premerge/premerge_resources/main.tf
@@ -23,6 +23,30 @@ resource "kubernetes_namespace" "llvm_premerge_linux_runners" {
   }
 }
 
+resource "kubernetes_namespace" "llvm_premerge_libcxx_runners" {
+  metadata {
+    name = "llvm-premerge-libcxx-runners"
+  }
+}
+
+resource "kubernetes_namespace" "llvm_premerge_libcxx_release_runners" {
+  metadata {
+    name = "llvm-premerge-libcxx-release-runners"
+  }
+}
+
+resource "kubernetes_namespace" "llvm_premerge_libcxx_next_runners" {
+  metadata {
+    name = "llvm-premerge-libcxx-next-runners"
+  }
+}
+
+resource "kubernetes_namespace" "llvm_premerge_windows_runners" {
+  metadata {
+    name = "llvm-premerge-windows-runners"
+  }
+}
+
 resource "kubernetes_secret" "linux_github_pat" {
   metadata {
     name      = "github-token"
@@ -40,10 +64,55 @@ resource "kubernetes_secret" "linux_github_pat" {
   depends_on = [kubernetes_namespace.llvm_premerge_linux_runners]
 }
 
-resource "kubernetes_namespace" "llvm_premerge_windows_runners" {
+resource "kubernetes_secret" "libcxx_github_pat" {
   metadata {
-    name = "llvm-premerge-windows-runners"
+    name      = "github-token"
+    namespace = "llvm-premerge-libcxx-runners"
+  }
+
+  data = {
+    "github_app_id"              = var.github_app_id
+    "github_app_installation_id" = var.github_app_installation_id
+    "github_app_private_key"     = var.github_app_private_key
+  }
+
+  type = "Opaque"
+
+  depends_on = [kubernetes_namespace.llvm_premerge_libcxx_runners]
+}
+
+resource "kubernetes_secret" "libcxx_release_github_pat" {
+  metadata {
+    name      = "github-token"
+    namespace = "llvm-premerge-libcxx-release-runners"
+  }
+
+  data = {
+    "github_app_id"              = var.github_app_id
+    "github_app_installation_id" = var.github_app_installation_id
+    "github_app_private_key"     = var.github_app_private_key
+  }
+
+  type = "Opaque"
+
+  depends_on = [kubernetes_namespace.llvm_premerge_libcxx_release_runners]
+}
+
+resource "kubernetes_secret" "libcxx_next_github_pat" {
+  metadata {
+    name      = "github-token"
+    namespace = "llvm-premerge-libcxx-next-runners"
+  }
+
+  data = {
+    "github_app_id"              = var.github_app_id
+    "github_app_installation_id" = var.github_app_installation_id
+    "github_app_private_key"     = var.github_app_private_key
   }
+
+  type = "Opaque"
+
+  depends_on = [kubernetes_namespace.llvm_premerge_libcxx_next_runners]
 }
 
 resource "kubernetes_secret" "windows_github_pat" {
@@ -111,6 +180,60 @@ resource "helm_release" "github_actions_runner_set_windows" {
   ]
 }
 
+resource "helm_release" "github_actions_runner_set_libcxx" {
+  name       = "llvm-premerge-libcxx-runners"
+  namespace  = "llvm-premerge-libcxx-runners"
+  repository = "oci://ghcr.io/actions/actions-runner-controller-charts"
+  version    = "0.11.0"
+  chart      = "gha-runner-scale-set"
+
+  values = [
+    "${templatefile("libcxx_runners_values.yaml", { runner_group_name : var.runner_group_name, runner_image : var.libcxx_runner_image })}"
+  ]
+
+  depends_on = [
+    kubernetes_namespace.llvm_premerge_libcxx_runners,
+    helm_release.github_actions_runner_controller,
+    kubernetes_secret.libcxx_github_pat,
+  ]
+}
+
+resource "helm_release" "github_actions_runner_set_libcxx_release" {
+  name       = "llvm-premerge-libcxx-release-runners"
+  namespace  = "llvm-premerge-libcxx-release-runners"
+  repository = "oci://ghcr.io/actions/actions-runner-controller-charts"
+  version    = "0.11.0"
+  chart      = "gha-runner-scale-set"
+
+  values = [
+    "${templatefile("libcxx_runners_values.yaml", { runner_group_name : var.runner_group_name, runner_image : var.libcxx_release_runner_image })}"
+  ]
+
+  depends_on = [
+    kubernetes_namespace.llvm_premerge_libcxx_release_runners,
+    helm_release.github_actions_runner_controller,
+    kubernetes_secret.libcxx_release_github_pat,
+  ]
+}
+
+resource "helm_release" "github_actions_runner_set_libcxx_next" {
+  name       = "llvm-premerge-libcxx-next-runners"
+  namespace  = "llvm-premerge-libcxx-next-runners"
+  repository = "oci://ghcr.io/actions/actions-runner-controller-charts"
+  version    = "0.11.0"
+  chart      = "gha-runner-scale-set"
+
+  values = [
+    "${templatefile("libcxx_runners_values.yaml", { runner_group_name : var.runner_group_name, runner_image : var.libcxx_next_runner_image })}"
+  ]
+
+  depends_on = [
+    kubernetes_namespace.llvm_premerge_libcxx_next_runners,
+    helm_release.github_actions_runner_controller,
+    kubernetes_secret.libcxx_next_github_pat,
+  ]
+}
+
 resource "kubernetes_namespace" "grafana" {
   metadata {
     name = "grafana"
diff --git a/premerge/premerge_resources/variables.tf b/premerge/premerge_resources/variables.tf
@@ -54,3 +54,19 @@ variable "externalservices_tempo_basicauth_username" {
 variable "runner_group_name" {
   type = string
 }
+
+variable "libcxx_runner_image" {
+  type = string
+  default = "ghcr.io/llvm/libcxx-linux-builder:b060022103f51d8ca1dad84122ef73927c86512"
+}
+
+variable "libcxx_release_runner_image" {
+  type = string
+  default = "ghcr.io/llvm/libcxx-linux-builder:d8a0709b1090350a7fe3604d8ab78c7d62f10698"
+}
+
+# Same value as libcxx_runner_image at this time.
+variable "libcxx_next_runner_image" {
+  type = string
+  default = "ghcr.io/llvm/libcxx-linux-builder:b060022103f51d8ca1dad84122ef73927c86512"
+}