Fixed CLI Default Values

UtkarshTheDev · UtkarshTheDev · commit e9109bf1516b · 2025-05-08T09:09:44.000+05:30
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -2,6 +2,21 @@
 
 All notable changes to LocalLab will be documented in this file.
 
+## [0.6.2] - 2024-05-03
+
+### Fixed
+
+- Fixed CLI configuration issue where optimization settings shown as enabled by default weren't being properly saved
+- Updated default values for all optimization settings (quantization, flash attention, CPU offloading, better transformer) to be enabled by default
+- Ensured consistency between displayed optimization settings and saved configuration
+- Fixed resource check functions to use correct default values for optimization settings
+
+## [0.6.1] - 2024-05-02
+
+### Fixed
+
+- Fixed CLI config environment variable issue
+
 ## [0.6.0] - 2024-05-02
 
 ### Added
diff --git a/locallab/__init__.py b/locallab/__init__.py
@@ -2,7 +2,7 @@
 LocalLab - A lightweight AI inference server for running LLMs locally
 """
 
-__version__ = "0.6.1"  # Updated to fix CLI config environment variable issue
+__version__ = "0.6.2"  # Updated to fix CLI optimization settings defaults
 
 # Only import what's necessary initially, lazy-load the rest
 from .logger import get_logger
diff --git a/locallab/config.py b/locallab/config.py
@@ -106,16 +106,16 @@ def save_config(config: Dict[str, Any]):
 
 # Optimization settings
 ENABLE_QUANTIZATION = get_env_var(
-    "ENABLE_QUANTIZATION", default="false", var_type=bool)
+    "ENABLE_QUANTIZATION", default="true", var_type=bool)
 QUANTIZATION_TYPE = get_env_var("QUANTIZATION_TYPE", default="int8")
 ENABLE_FLASH_ATTENTION = get_env_var(
-    "ENABLE_FLASH_ATTENTION", default="false", var_type=bool)
+    "ENABLE_FLASH_ATTENTION", default="true", var_type=bool)
 ENABLE_ATTENTION_SLICING = get_env_var(
     "ENABLE_ATTENTION_SLICING", default="true", var_type=bool)
 ENABLE_CPU_OFFLOADING = get_env_var(
-    "ENABLE_CPU_OFFLOADING", default="false", var_type=bool)
+    "ENABLE_CPU_OFFLOADING", default="true", var_type=bool)
 ENABLE_BETTERTRANSFORMER = get_env_var(
-    "ENABLE_BETTERTRANSFORMER", default="false", var_type=bool)
+    "ENABLE_BETTERTRANSFORMER", default="true", var_type=bool)
 
 # Resource management
 UNLOAD_UNUSED_MODELS = get_env_var(
@@ -164,13 +164,13 @@ def can_run_model(model_id: str) -> bool:
     available_ram = (psutil.virtual_memory().available / (1024 ** 3)) * 0.8  # 80% of available RAM in GB
 
     # Adjust requirements based on optimizations
-    if get_env_var("LOCALLAB_ENABLE_QUANTIZATION", default=False, var_type=bool):
+    if get_env_var("LOCALLAB_ENABLE_QUANTIZATION", default=True, var_type=bool):
         # Quantization reduces memory usage
         requirements["min_ram"] *= 0.5
         if "min_vram" in requirements:
             requirements["min_vram"] *= 0.5
 
-    if get_env_var("LOCALLAB_ENABLE_CPU_OFFLOADING", default=False, var_type=bool):
+    if get_env_var("LOCALLAB_ENABLE_CPU_OFFLOADING", default=True, var_type=bool):
         # CPU offloading allows running with less RAM
         requirements["min_ram"] *= 0.7
 
diff --git a/locallab/ui/banners.py b/locallab/ui/banners.py
@@ -209,12 +209,12 @@ def print_model_info():
                 model_id = get_env_var("HUGGINGFACE_MODEL") or get_env_var("LOCALLAB_MODEL_ID") or "microsoft/phi-2"
 
             # Get optimization settings
-            enable_quantization = get_env_var("LOCALLAB_ENABLE_QUANTIZATION", default="false").lower() == "true"
+            enable_quantization = get_env_var("LOCALLAB_ENABLE_QUANTIZATION", default="true").lower() == "true"
             quantization_type = get_env_var("LOCALLAB_QUANTIZATION_TYPE", default="int8")
-            enable_attention_slicing = get_env_var("LOCALLAB_ENABLE_ATTENTION_SLICING", default="false").lower() == "true"
-            enable_flash_attention = get_env_var("LOCALLAB_ENABLE_FLASH_ATTENTION", default="false").lower() == "true"
-            enable_better_transformer = get_env_var("LOCALLAB_ENABLE_BETTERTRANSFORMER", default="false").lower() == "true"
-            enable_cpu_offloading = get_env_var("LOCALLAB_ENABLE_CPU_OFFLOADING", default="false").lower() == "true"
+            enable_attention_slicing = get_env_var("LOCALLAB_ENABLE_ATTENTION_SLICING", default="true").lower() == "true"
+            enable_flash_attention = get_env_var("LOCALLAB_ENABLE_FLASH_ATTENTION", default="true").lower() == "true"
+            enable_better_transformer = get_env_var("LOCALLAB_ENABLE_BETTERTRANSFORMER", default="true").lower() == "true"
+            enable_cpu_offloading = get_env_var("LOCALLAB_ENABLE_CPU_OFFLOADING", default="true").lower() == "true"
 
             # Format model information
             model_info = f"""
diff --git a/setup.py b/setup.py
@@ -47,7 +47,7 @@
 
 setup(
     name="locallab",
-    version="0.6.1",
+    version="0.6.2",
     packages=find_packages(include=["locallab", "locallab.*"]),
     install_requires=install_requires,
     extras_require={