Fix parameter count for quantized models (#137)

awni · web-flow · commit ee949929b640 · 2024-09-30T11:49:11.000-07:00
* fix parameter count

* cleanup

* try extension module
diff --git a/Applications/LLMEval/ContentView.swift b/Applications/LLMEval/ContentView.swift
@@ -193,8 +193,13 @@ class LLMEvaluator {
                         "Downloading \(modelConfiguration.name): \(Int(progress.fractionCompleted * 100))%"
                 }
             }
+            let numParams = await modelContainer.perform {
+                [] model, _ in
+                return model.numParameters()
+            }
+
             self.modelInfo =
-                "Loaded \(modelConfiguration.id).  Weights: \(MLX.GPU.activeMemory / 1024 / 1024)M"
+                "Loaded \(modelConfiguration.id).  Weights: \(numParams / (1024*1024))M"
             loadState = .loaded(modelContainer)
             return modelContainer
 
diff --git a/Libraries/LLM/LLMModel.swift b/Libraries/LLM/LLMModel.swift
@@ -57,6 +57,27 @@ public actor ModelContainer {
     }
 }
 
+extension Module {
+
+    /// Compute the number of parameters in a possibly quantized model
+    public func numParameters() -> Int {
+        return leafModules().flattenedValues().map {
+            mod -> Int in
+            if let qlin = mod as? QuantizedLinear {
+                return qlin.scales.size * qlin.groupSize
+            } else if let qemb = mod as? QuantizedEmbedding {
+                return qemb.scales.size * qemb.groupSize
+            } else {
+                return mod.parameters().flattenedValues().reduce(
+                    0,
+                    {
+                        $0 + $1.size
+                    })
+            }
+        }.reduce(0, +)
+    }
+}
+
 /// Interface for all LLM Models
 public protocol LLMModel: Module {
 
diff --git a/Tools/llm-tool/LoraCommands.swift b/Tools/llm-tool/LoraCommands.swift
@@ -58,8 +58,7 @@ struct LoRAModelArguments: ParsableArguments, Sendable {
     }
 
     func describe(model: Module) {
-        let totalParameterCount = model.parameters()
-            .flattenedValues().map { $0.size }.reduce(0, +)
+        let totalParameterCount = model.numParameters()
         let trainableParameterCount = model.trainableParameters()
             .flattenedValues().map { $0.size }.reduce(0, +)
 

Original file line number	Diff line number	Diff line change
`@@ -193,8 +193,13 @@ class LLMEvaluator {`
`193`	`193`	`"Downloading \(modelConfiguration.name): \(Int(progress.fractionCompleted * 100))%"`
`194`	`194`	`}`
`195`	`195`	`}`
	`196`	`+ let numParams = await modelContainer.perform {`
	`197`	`+ [] model, _ in`
	`198`	`+ return model.numParameters()`
	`199`	`+ }`
	`200`	`+`
`196`	`201`	`self.modelInfo =`
`197`		`- "Loaded \(modelConfiguration.id). Weights: \(MLX.GPU.activeMemory / 1024 / 1024)M"`
	`202`	`+ "Loaded \(modelConfiguration.id). Weights: \(numParams / (1024*1024))M"`
`198`	`203`	`loadState = .loaded(modelContainer)`
`199`	`204`	`return modelContainer`
`200`	`205`
Original file line number	Diff line number	Diff line change
`@@ -58,8 +58,7 @@ struct LoRAModelArguments: ParsableArguments, Sendable {`
`58`	`58`	`}`
`59`	`59`
`60`	`60`	`func describe(model: Module) {`
`61`		`- let totalParameterCount = model.parameters()`
`62`		`- .flattenedValues().map { $0.size }.reduce(0, +)`
	`61`	`+ let totalParameterCount = model.numParameters()`
`63`	`62`	`let trainableParameterCount = model.trainableParameters()`
`64`	`63`	`.flattenedValues().map { $0.size }.reduce(0, +)`
`65`	`64`