Add --dense-path argument (to be used within CandleBackend)

alvarobartt · alvarobartt · commit c9cddf2df5aa · 2025-07-02T13:34:39.000+02:00
If `--dense-path` was not allowed, that would prevent users from using other `Dense` layers when available as per e.g. https://huggingface.co/NovaSearch/stella_en_400M_v5, that contains different directories for different `Dense` layers with different output vector dimensionality as `2_Dense_<dims>/`.
diff --git a/backends/candle/src/lib.rs b/backends/candle/src/lib.rs
@@ -123,6 +123,7 @@ impl CandleBackend {
         model_path: &Path,
         dtype: String,
         model_type: ModelType,
+        dense_path: Option<&Path>,
     ) -> Result<Self, BackendError> {
         // Default files
         let default_safetensors = model_path.join("model.safetensors");
@@ -470,27 +471,44 @@ impl CandleBackend {
             }
         };
 
-        // If `2_Dense/model.safetensors` is amongst the downloaded artifacts, then create a Dense
+        // If `2_Dense/model.safetensors` or `2_Dense/pytorch_model.bin` is amongst the downloaded artifacts, then create a Dense
         // block and provide it to the `CandleBackend`, otherwise, None
-        let dense = if model_path.join("2_Dense/model.safetensors").exists() {
-            let dense_config_path = model_path.join("2_Dense/config.json");
+        let dense = if let Some(dense_path) = dense_path {
+            let dense_safetensors = dense_path.join("model.safetensors");
+            let dense_pytorch = dense_path.join("pytorch_model.bin");
+
+            if dense_safetensors.exists() || dense_pytorch.exists() {
+                let dense_config_path = dense_path.join("config.json");
+
+                let dense_config_str =
+                    std::fs::read_to_string(&dense_config_path).map_err(|err| {
+                        BackendError::Start(format!(
+                            "Unable to read `{}/config.json` file: {err:?}",
+                            dense_path.display()
+                        ))
+                    })?;
+                let dense_config: DenseConfig =
+                    serde_json::from_str(&dense_config_str).map_err(|err| {
+                        BackendError::Start(format!(
+                            "Unable to parse `{}/config.json`: {err:?}",
+                            dense_path.display()
+                        ))
+                    })?;
+
+                let dense_vb = if dense_safetensors.exists() {
+                    unsafe {
+                        VarBuilder::from_mmaped_safetensors(&[dense_safetensors], dtype, &device)
+                    }
+                    .s()?
+                } else {
+                    VarBuilder::from_pth(&dense_pytorch, dtype, &device).s()?
+                };
 
-            let dense_config_str = std::fs::read_to_string(&dense_config_path).map_err(|err| {
-                BackendError::Start(format!(
-                    "Unable to read `2_Dense/config.json` file: {err:?}"
-                ))
-            })?;
-            let dense_config: DenseConfig =
-                serde_json::from_str(&dense_config_str).map_err(|err| {
-                    BackendError::Start(format!("Unable to parse `2_Dense/config.json`: {err:?}"))
-                })?;
-
-            let dense_path = model_path.join("2_Dense/model.safetensors");
-            let dense_vb =
-                unsafe { VarBuilder::from_mmaped_safetensors(&[dense_path], dtype, &device) }
-                    .s()?;
-
-            Some(Box::new(Dense::load(dense_vb, &dense_config).s()?) as Box<dyn DenseLayer + Send>)
+                Some(Box::new(Dense::load(dense_vb, &dense_config).s()?)
+                    as Box<dyn DenseLayer + Send>)
+            } else {
+                None
+            }
         } else {
             None
         };
diff --git a/backends/candle/tests/test_bert.rs b/backends/candle/tests/test_bert.rs
@@ -16,6 +16,7 @@ fn test_bert() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -76,6 +77,7 @@ fn test_bert_pooled_raw() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -142,7 +144,12 @@ fn test_emotions() -> Result<()> {
     let model_root = download_artifacts("SamLowe/roberta-base-go_emotions", None)?;
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float32".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float32".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_batch = batch(
         vec![
@@ -193,7 +200,12 @@ fn test_bert_classification() -> Result<()> {
         download_artifacts("ibm-research/re2g-reranker-nq", Some("refs/pr/3")).unwrap();
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float32".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float32".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer
diff --git a/backends/candle/tests/test_flash_bert.rs b/backends/candle/tests/test_flash_bert.rs
@@ -22,6 +22,7 @@ fn test_flash_mini() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -86,6 +87,7 @@ fn test_flash_mini_pooled_raw() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -156,7 +158,12 @@ fn test_flash_emotions() -> Result<()> {
     let model_root = download_artifacts("SamLowe/roberta-base-go_emotions", None)?;
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float16".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float16".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_batch = batch(
         vec![
@@ -210,7 +217,12 @@ fn test_flash_bert_classification() -> Result<()> {
     let model_root = download_artifacts("ibm-research/re2g-reranker-nq", Some("refs/pr/3"))?;
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float16".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float16".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer
diff --git a/backends/candle/tests/test_flash_gte.rs b/backends/candle/tests/test_flash_gte.rs
@@ -18,6 +18,7 @@ fn test_flash_gte() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -62,7 +63,12 @@ fn test_flash_gte_classification() -> Result<()> {
     let model_root = download_artifacts("Alibaba-NLP/gte-multilingual-reranker-base", None)?;
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float16".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float16".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer
diff --git a/backends/candle/tests/test_flash_jina.rs b/backends/candle/tests/test_flash_jina.rs
@@ -18,6 +18,7 @@ fn test_flash_jina_small() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_flash_jina_code.rs b/backends/candle/tests/test_flash_jina_code.rs
@@ -18,6 +18,7 @@ fn test_flash_jina_code_base() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_flash_mistral.rs b/backends/candle/tests/test_flash_mistral.rs
@@ -18,6 +18,7 @@ fn test_flash_mistral() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_flash_nomic.rs b/backends/candle/tests/test_flash_nomic.rs
@@ -18,6 +18,7 @@ fn test_flash_nomic_small() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -63,6 +64,7 @@ fn test_flash_nomic_moe() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_flash_qwen2.rs b/backends/candle/tests/test_flash_qwen2.rs
@@ -42,6 +42,7 @@ fn test_flash_qwen2() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::LastToken),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_flash_qwen3.rs b/backends/candle/tests/test_flash_qwen3.rs
@@ -18,6 +18,7 @@ fn test_flash_qwen3() -> Result<()> {
         &model_root,
         "float16".to_string(),
         ModelType::Embedding(Pool::LastToken),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_gte.rs b/backends/candle/tests/test_gte.rs
@@ -16,6 +16,7 @@ fn test_alibaba_gte() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -60,6 +61,7 @@ fn test_alibaba_gte_new() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -104,6 +106,7 @@ fn test_snowflake_gte() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -144,7 +147,12 @@ fn test_gte_classification() -> Result<()> {
     let model_root = download_artifacts("Alibaba-NLP/gte-multilingual-reranker-base", None)?;
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float32".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float32".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer
diff --git a/backends/candle/tests/test_jina.rs b/backends/candle/tests/test_jina.rs
@@ -15,6 +15,7 @@ fn test_jina_small() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -55,7 +56,12 @@ fn test_jina_rerank() -> Result<()> {
     let model_root = download_artifacts("jinaai/jina-reranker-v1-tiny-en", Some("refs/pr/11"))?;
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float32".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float32".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer.encode("What is Deep Learning?", true).unwrap()],
diff --git a/backends/candle/tests/test_jina_code.rs b/backends/candle/tests/test_jina_code.rs
@@ -15,6 +15,7 @@ fn test_jina_code_base() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_modernbert.rs b/backends/candle/tests/test_modernbert.rs
@@ -18,6 +18,7 @@ fn test_modernbert() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -86,6 +87,7 @@ fn test_modernbert_pooled_raw() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
@@ -176,7 +178,12 @@ fn test_modernbert_classification() -> Result<()> {
     let model_root = download_artifacts("Alibaba-NLP/gte-reranker-modernbert-base", None).unwrap();
     let tokenizer = load_tokenizer(&model_root)?;
 
-    let backend = CandleBackend::new(&model_root, "float32".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float32".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer
@@ -208,7 +215,12 @@ fn test_modernbert_classification() -> Result<()> {
 fn test_modernbert_classification_mean_pooling() -> Result<()> {
     let model_root = download_artifacts("tomaarsen/reranker-ModernBERT-large-gooaq-bce", None)?;
     let tokenizer = load_tokenizer(&model_root)?;
-    let backend = CandleBackend::new(&model_root, "float32".to_string(), ModelType::Classifier)?;
+    let backend = CandleBackend::new(
+        &model_root,
+        "float32".to_string(),
+        ModelType::Classifier,
+        None,
+    )?;
 
     let input_single = batch(
         vec![tokenizer
diff --git a/backends/candle/tests/test_mpnet.rs b/backends/candle/tests/test_mpnet.rs
@@ -16,6 +16,7 @@ fn test_mpnet() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -76,6 +77,7 @@ fn test_mpnet_pooled_raw() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Cls),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_nomic.rs b/backends/candle/tests/test_nomic.rs
@@ -15,6 +15,7 @@ fn test_nomic_small() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
@@ -58,6 +59,7 @@ fn test_nomic_moe() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::Mean),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/candle/tests/test_qwen3.rs b/backends/candle/tests/test_qwen3.rs
@@ -16,6 +16,7 @@ fn test_qwen3() -> Result<()> {
         &model_root,
         "float32".to_string(),
         ModelType::Embedding(Pool::LastToken),
+        None,
     )?;
 
     let input_batch = batch(
diff --git a/backends/src/lib.rs b/backends/src/lib.rs
diff --git a/core/src/download.rs b/core/src/download.rs
diff --git a/router/src/lib.rs b/router/src/lib.rs
diff --git a/router/src/main.rs b/router/src/main.rs