replace model of v0 spec decode ci

shen-shanshan · shen-shanshan · commit 7ce57853af7f · 2025-07-07T20:18:05.000+08:00
Signed-off-by: Shanshan Shen &lt;87969357+shen-shanshan@users.noreply.github.com&gt;
diff --git a/tests/e2e/long_term/spec_decode_v0/e2e/test_eagle_correctness.py b/tests/e2e/long_term/spec_decode_v0/e2e/test_eagle_correctness.py
@@ -43,7 +43,7 @@
     run_equality_correctness_test
 
 # main model
-MAIN_MODEL = "JackFram/llama-68m"
+MAIN_MODEL = "LLM-Research/Meta-Llama-3.1-8B-Instruct"
 
 # speculative model
 SPEC_MODEL = "abhigoyal/vllm-eagle-llama-68m-random"
diff --git a/tests/e2e/long_term/spec_decode_v0/e2e/test_medusa_correctness.py b/tests/e2e/long_term/spec_decode_v0/e2e/test_medusa_correctness.py
@@ -49,7 +49,7 @@
 # main model
 # lmsys/vicuna-7b-v1.3 was to be used but it's causing
 # OOM in CI pipeline, so using a smaller model.
-MAIN_MODEL = "JackFram/llama-68m"
+MAIN_MODEL = "LLM-Research/Meta-Llama-3.1-8B-Instruct"
 
 # speculative model
 SPEC_MODEL = "abhigoyal/vllm-medusa-llama-68m-random"
diff --git a/tests/e2e/long_term/spec_decode_v0/e2e/test_ngram_correctness.py b/tests/e2e/long_term/spec_decode_v0/e2e/test_ngram_correctness.py
@@ -61,7 +61,7 @@
     }])
 @pytest.mark.parametrize("per_test_common_llm_kwargs", [
     {
-        "model_name": "JackFram/llama-68m",
+        "model_name": "LLM-Research/Meta-Llama-3.1-8B-Instruct",
     },
 ])
 @pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -124,7 +124,7 @@ def test_ngram_e2e_greedy_correctness(vllm_runner, common_llm_kwargs,
     }])
 @pytest.mark.parametrize("per_test_common_llm_kwargs", [
     {
-        "model_name": "JackFram/llama-68m",
+        "model_name": "LLM-Research/Meta-Llama-3.1-8B-Instruct",
     },
 ])
 @pytest.mark.parametrize("baseline_llm_kwargs", [{}])
@@ -242,7 +242,7 @@ def test_ngram_e2e_greedy_correctness_with_preemption(
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "model_name": "JackFram/llama-68m",
+        "model_name": "LLM-Research/Meta-Llama-3.1-8B-Instruct",
 
         # Skip cuda graph recording for fast test.
         "enforce_eager": True,
@@ -302,7 +302,7 @@ def test_ngram_different_k(vllm_runner, common_llm_kwargs,
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "model_name": "JackFram/llama-68m",
+        "model_name": "LLM-Research/Meta-Llama-3.1-8B-Instruct",
 
         # Skip cuda graph recording for fast test.
         "enforce_eager": True,
@@ -364,7 +364,7 @@ def test_ngram_disable_queue(vllm_runner, common_llm_kwargs,
 @pytest.mark.parametrize(
     "common_llm_kwargs",
     [{
-        "model_name": "JackFram/llama-68m",
+        "model_name": "LLM-Research/Meta-Llama-3.1-8B-Instruct",
 
         # Skip cuda graph recording for fast test.
         "enforce_eager": True,
diff --git a/tests/e2e/long_term/spec_decode_v0/test_multi_step_worker.py b/tests/e2e/long_term/spec_decode_v0/test_multi_step_worker.py
@@ -96,7 +96,7 @@ def test_same_output_for_single_step():
     worker for num_steps=1.
     """
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
 
     block_size = 32
     num_gpu_blocks = 2048 // block_size
@@ -181,7 +181,7 @@ def test_same_output_for_multi_step():
     then runs the worker num_steps times, and compares the output.
     """
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
 
     block_size = 16
     num_gpu_blocks = 2048 // block_size
@@ -308,7 +308,7 @@ def test_multi_step_with_batch_expansion_correct_output():
     expanded batch is then used for predicting the next tokens.
     """
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
 
     block_size = 16
     num_gpu_blocks = 2048 // block_size
@@ -403,7 +403,7 @@ def test_multi_step_with_batch_expansion_incorrect_output():
     the sequence ID is specified incorrectly.
     """
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
 
     block_size = 16
     num_gpu_blocks = 2048 // block_size
@@ -504,7 +504,7 @@ def test_multi_step_correct_kvcache(num_steps):
     is correctly updated for sequences with bonus token.
     """
     seed = 100
-    model_name = "JackFram/llama-68m"
+    model_name = "LLM-Research/Meta-Llama-3.1-8B-Instruct"
 
     block_size = 16
     num_gpu_blocks = 2048 // block_size
@@ -768,7 +768,7 @@ def test_use_draft_model_runner_advance_step():
     when applicable.
     """
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
 
     k = 5
     batch_size = 32
diff --git a/tests/e2e/long_term/spec_decode_v0/test_ngram_worker.py b/tests/e2e/long_term/spec_decode_v0/test_ngram_worker.py
@@ -34,7 +34,7 @@ def test_ngram_algo_correctness_for_single_no_match():
     block_size = 32
     num_gpu_blocks = 2048 // block_size
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
     vocab_size = 32_000
     device = 'npu:0'
 
@@ -92,7 +92,7 @@ def test_ngram_algo_correctness_for_batches_not_match_all():
     block_size = 32
     num_gpu_blocks = 2048 // block_size
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
     vocab_size = 32_000
     device = 'npu:0'
 
@@ -173,7 +173,7 @@ def test_ngram_algo_correctness_for_batches_match_all():
     block_size = 32
     num_gpu_blocks = 2048 // block_size
     seed = 100
-    model_name = 'JackFram/llama-68m'
+    model_name = 'LLM-Research/Meta-Llama-3.1-8B-Instruct'
     vocab_size = 32_000
     device = 'npu:0'
 
diff --git a/tests/e2e/long_term/spec_decode_v0/test_spec_decode_worker.py b/tests/e2e/long_term/spec_decode_v0/test_spec_decode_worker.py
@@ -932,7 +932,7 @@ def test_correctly_load_weight_for_eagle():
     num_gpu_blocks = 8096 // block_size
     target_worker = create_worker(
         NPUWorker,
-        "JackFram/llama-68m",
+        "LLM-Research/Meta-Llama-3.1-8B-Instruct",
         block_size,
         num_gpu_blocks,
         seed,