rocm: use enforce-eager to avoid OOM errors

dtrifiro · dtrifiro · commit cfa2b6f88007 · 2025-05-13T15:40:03.000+02:00
diff --git a/Qwen/Qwen2.5-7B-Instruct/accuracy/server-rocm.yml b/Qwen/Qwen2.5-7B-Instruct/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.8
+enforce-eager: true
diff --git a/RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic/accuracy/server-rocm.yml b/RedHatAI/Meta-Llama-3.1-8B-Instruct-FP8-dynamic/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/RedHatAI/Mistral-Small-24B-Instruct-2501-FP8-Dynamic/accuracy/server-rocm.yml b/RedHatAI/Mistral-Small-24B-Instruct-2501-FP8-Dynamic/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.8
+enforce-eager: true
diff --git a/RedHatAI/Mistral-Small-24B-Instruct-2501-quantized.w8a8/accuracy/server-rocm.yml b/RedHatAI/Mistral-Small-24B-Instruct-2501-quantized.w8a8/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.8
+enforce-eager: true
diff --git a/RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-FP8-dynamic/accuracy/server-rocm.yml b/RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-FP8-dynamic/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-quantized.w8a8/accuracy/server-rocm.yml b/RedHatAI/Mistral-Small-3.1-24B-Instruct-2503-quantized.w8a8/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/RedHatAI/Qwen2.5-7B-Instruct-FP8-dynamic/accuracy/server-rocm.yml b/RedHatAI/Qwen2.5-7B-Instruct-FP8-dynamic/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/RedHatAI/phi-4-FP8-dynamic/accuracy/server-rocm.yml b/RedHatAI/phi-4-FP8-dynamic/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/ibm-granite/granite-3.1-8b-instruct/accuracy/server-rocm.yml b/ibm-granite/granite-3.1-8b-instruct/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/meta-llama/Llama-3.1-8B-Instruct/accuracy/server-rocm.yml b/meta-llama/Llama-3.1-8B-Instruct/accuracy/server-rocm.yml
@@ -3,4 +3,4 @@ trust-remote-code: true
 tensor-parallel-size: 1
 max-model-len: 16384
 # override
-gpu_memory_utilization: 0.6
+enforce-eager: true
diff --git a/mistralai/Mixtral-8x7B-Instruct-v0.1/accuracy/server-rocm.yml b/mistralai/Mixtral-8x7B-Instruct-v0.1/accuracy/server-rocm.yml
@@ -1,5 +1,7 @@
 # https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
-model: "mistralai/Mixtral-8x7B-Instruct-v0.1"
+model: 'mistralai/Mixtral-8x7B-Instruct-v0.1'
 trust-remote-code: true
 tensor-parallel-size: 2
 max-model-len: 16384
+# override
+enforce-eager: true