removing test code

HDCharles · HDCharles · commit e18e520ba215 · 2025-05-08T11:07:18.000-07:00
Summary:

Test Plan:

Reviewers:

Subscribers:

Tasks:

Tags:
diff --git a/torchao/_models/mixtral-moe/generate.py b/torchao/_models/mixtral-moe/generate.py
@@ -386,16 +386,16 @@ def callback(x):
 
         if not interactive:
             pass
-            # print(tokenizer.decode(y[0].tolist()))
+            print(tokenizer.decode(y[0].tolist()))
         else:
             print()
         tokens_generated = y.size(-1) - prompt_length
         tokens_sec = tokens_generated / t
         aggregate_metrics["tokens_per_sec"].append(tokens_sec)
-        # print(
-        #     f"Time for inference {i + 1}: {t:.02f} sec total, {tokens_sec:.02f} tokens/sec"
-        # )
-        # print(f"Bandwidth achieved: {model_size * tokens_sec / 1e9:.02f} GB/s")
+        print(
+            f"Time for inference {i + 1}: {t:.02f} sec total, {tokens_sec:.02f} tokens/sec"
+        )
+        print(f"Bandwidth achieved: {model_size * tokens_sec / 1e9:.02f} GB/s")
 
         if i == 0 and device == "cuda" and memory_profile is not None:
             snapshot = torch.cuda.memory._snapshot()