improve 3x ut on bf16 supported machine (#2163)

changwangss · web-flow · commit df3d64f9c502 · 2025-04-03T10:44:02.000+08:00
Signed-off-by: changwangss &lt;chang1.wang@intel.com&gt;
diff --git a/neural_compressor/torch/algorithms/smooth_quant/smooth_quant.py b/neural_compressor/torch/algorithms/smooth_quant/smooth_quant.py
@@ -393,7 +393,9 @@ def _ipex_post_quant_process(model, example_inputs, use_bf16, inplace=False):
     Returns:
         A converted jit model.
     """
-    if use_bf16 and (CpuInfo().bf16 or os.getenv("FORCE_BF16") == "1"):  # pragma: no cover
+    if (
+        use_bf16 and (not os.getenv("FORCE_FP32") == "1") and (CpuInfo().bf16 or os.getenv("FORCE_BF16") == "1")
+    ):  # pragma: no cover
         with torch.no_grad():
             with torch.cpu.amp.autocast():
                 model = ipex.quantization.convert(model, inplace=inplace)
diff --git a/neural_compressor/torch/algorithms/static_quant/static_quant.py b/neural_compressor/torch/algorithms/static_quant/static_quant.py
@@ -185,7 +185,9 @@ def _ipex_post_quant_process(model, example_inputs, use_bf16, inplace=False):
     Returns:
         A converted jit model.
     """
-    if use_bf16 and (CpuInfo().bf16 or os.getenv("FORCE_BF16") == "1"):  # pragma: no cover
+    if (
+        use_bf16 and (not os.getenv("FORCE_FP32") == "1") and (CpuInfo().bf16 or os.getenv("FORCE_BF16") == "1")
+    ):  # pragma: no cover
         with torch.no_grad():
             with torch.cpu.amp.autocast():
                 model = ipex.quantization.convert(model, inplace=inplace)
diff --git a/test/3x/torch/quantization/test_smooth_quant.py b/test/3x/torch/quantization/test_smooth_quant.py
@@ -1,3 +1,4 @@
+import os
 import copy
 import shutil
 
@@ -9,7 +10,7 @@
 
 if is_ipex_available():
     import intel_extension_for_pytorch as ipex
-
+os.environ["FORCE_FP32"] = "1"
 
 class Model(torch.nn.Module):
     device = torch.device("cpu")
diff --git a/test/3x/torch/quantization/test_static_quant.py b/test/3x/torch/quantization/test_static_quant.py
@@ -1,3 +1,4 @@
+import os
 import copy
 import shutil
 
@@ -22,7 +23,7 @@
 from neural_compressor.torch.utils.auto_accelerator import auto_detect_accelerator
 
 device = auto_detect_accelerator().current_device()
-
+os.environ["FORCE_FP32"] = "1"
 
 def build_simple_torch_model():
     class Model(torch.nn.Module):
diff --git a/test/3x/torch/quantization/weight_only/test_transformers.py b/test/3x/torch/quantization/weight_only/test_transformers.py
@@ -8,6 +8,7 @@
 from transformers import AutoTokenizer
 
 from neural_compressor.torch.utils import get_ipex_version
+from neural_compressor.utils.utility import CpuInfo
 from neural_compressor.transformers import (
     AutoModelForCausalLM,
     Qwen2VLForConditionalGeneration,
@@ -107,7 +108,10 @@ def test_quantization_for_llm(self):
         woq_model = AutoModelForCausalLM.from_pretrained(model_name_or_path, quantization_config=woq_config)
         woq_model.eval()
         output = woq_model(dummy_input)
-        assert isclose(float(output[0][0][0][0]), 0.18400897085666656, rel_tol=1e-04)
+        if CpuInfo().bf16:
+            assert isclose(float(output[0][0][0][0]), 0.19140625, rel_tol=1e-04)
+        else:
+            assert isclose(float(output[0][0][0][0]), 0.18400897085666656, rel_tol=1e-04)
 
     def test_save_load(self):
         model_name_or_path = self.model_name_or_path