Fixed bug for 16a4w ptq (#12167)

rohansjoshi · web-flow · commit 4ddf0498263d · 2025-07-03T16:49:45.000-07:00
Summary: Currently running the script
executorch/examples/models/llama/export_llama.py with the flag --ptq
16a4w, it does 16a16w quantization; this diff fixes this. This may be
related to some GitHub issues

Differential Revision: D77671468
diff --git a/extension/llm/export/quantizer_lib.py b/extension/llm/export/quantizer_lib.py
@@ -192,7 +192,7 @@ def get_qnn_quantizer(
             act_observer=MinMaxObserver,
         )
     elif quant_config == "16a4w":
-        quant_dtype = QuantDtype.use_16a16w  # pyre-fixme[16]
+        quant_dtype = QuantDtype.use_16a4w  # pyre-fixme[16]
         qnn_quantizer.set_default_quant_config(
             quant_dtype,
             is_qat=is_qat,

Original file line number	Diff line number	Diff line change
`@@ -192,7 +192,7 @@ def get_qnn_quantizer(`
`192`	`192`	`act_observer=MinMaxObserver,`
`193`	`193`	`)`
`194`	`194`	`elif quant_config == "16a4w":`
`195`		`- quant_dtype = QuantDtype.use_16a16w # pyre-fixme[16]`
	`195`	`+ quant_dtype = QuantDtype.use_16a4w # pyre-fixme[16]`
`196`	`196`	`qnn_quantizer.set_default_quant_config(`
`197`	`197`	`quant_dtype,`
`198`	`198`	`is_qat=is_qat,`