Enhance ONNXRT log info (#1454)

yuwenzho · web-flow · commit 1f236d530065 · 2023-12-12T16:34:19.000+08:00
Signed-off-by: yuwenzho &lt;yuwen.zhou@intel.com&gt;
diff --git a/neural_compressor/adaptor/onnxrt.py b/neural_compressor/adaptor/onnxrt.py
@@ -219,7 +219,10 @@ def smooth_quant(
         self.sq = ORTSmoothQuant(self.pre_optimized_model, dataloader, self.reduce_range, self.backend)
         self.sq.record_max_info = record_max_info
         self.smooth_quant_model = self.sq.transform(**self.cur_sq_args)
-        logger.info("Updated the pre-optimized model with smooth quant model.")
+        if not record_max_info:  # pragma: no cover
+            logger.info("Updated the pre-optimized model with smooth quant model.")
+        else:
+            logger.info("Collected scale information for smooth quant.")
         # TODO double-check the smooth_quant_model and pre_optimized_model to make sure there no two fp32 model replicas
         self.pre_optimized_model = self.smooth_quant_model
         return self.smooth_quant_model
@@ -305,6 +308,7 @@ def quantize(self, tune_cfg, model, data_loader, q_func=None):
             self.sq.model = tmp_model
             self.sq.record_max_info = False
             tmp_model = self.sq.transform(**self.cur_sq_args)
+            logger.info("Model is smooth quantized.")
 
         iterations = tune_cfg.get("calib_iteration", 1)
         calib_sampling_size = tune_cfg.get("calib_sampling_size", 1)
@@ -1129,7 +1133,7 @@ def _replace_gemm_with_matmul(model):
         from onnx import numpy_helper
 
         if not isinstance(model, ONNXModel):
-            model = ONNXModel(model)
+            model = ONNXModel(model, ignore_warning=True)
 
         for node in model.nodes():
             if node.op_type == "Gemm":