Merge branch 'main' into main

ZachNagengast · web-flow · commit 1508f9fbce9c · 2024-09-06T14:04:39.000-07:00
diff --git a/README.md b/README.md
@@ -95,10 +95,9 @@ For Stable Diffusion 3:
 ```python
 from diffusionkit.mlx import DiffusionPipeline
 pipeline = DiffusionPipeline(
-  model="argmaxinc/stable-diffusion",
   shift=3.0,
   use_t5=False,
-  model_version="stable-diffusion-3-medium",
+  model_version="argmaxinc/mlx-stable-diffusion-3-medium",
   low_memory_mode=True,
   a16=True,
   w16=True,
@@ -109,9 +108,8 @@ For FLUX:
 ```python
 from diffusionkit.mlx import FluxPipeline
 pipeline = FluxPipeline(
-  model="argmaxinc/stable-diffusion",
   shift=1.0,
-  model_version="FLUX.1-schnell",
+  model_version="argmaxinc/mlx-FLUX.1-schnell",
   low_memory_mode=True,
   a16=True,
   w16=True,
diff --git a/python/src/diffusionkit/mlx/__init__.py b/python/src/diffusionkit/mlx/__init__.py
@@ -35,21 +35,20 @@
 logger = get_logger(__name__)
 
 MMDIT_CKPT = {
-    "stable-diffusion-3-medium": "stabilityai/stable-diffusion-3-medium",
+    "argmaxinc/mlx-stable-diffusion-3-medium": "argmaxinc/mlx-stable-diffusion-3-medium",
     "sd3-8b-unreleased": "models/sd3_8b_beta.safetensors",  # unreleased
-    "FLUX.1-schnell": "argmaxinc/mlx-FLUX.1-schnell",
-    "FLUX.1-schnell-4bit-quantized": "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized",
-    "FLUX.1-dev": "raoulritter/flux-dev-mlx",
+    "argmaxinc/mlx-FLUX.1-schnell": "argmaxinc/mlx-FLUX.1-schnell",
+    "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized",
+    "argmaxinc/mlx-FLUX.1-dev": "argmaxinc/mlx-FLUX.1-dev"
 }
 
 T5_MAX_LENGTH = {
-    "stable-diffusion-3-medium": 512,
-    "FLUX.1-schnell": 256,
-    "FLUX.1-schnell-4bit-quantized": 256,
-    "FLUX.1-dev": 512,
+    "argmaxinc/mlx-stable-diffusion-3-medium": 512,
+    "argmaxinc/mlx-FLUX.1-schnell": 256,
+    "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": 256,
+    "argmaxinc/mlx-FLUX.1-dev": 512,
 }
 
-
 class DiffusionKitInferenceContext(AppleSiliconContextMixin, InferenceContextSpec):
     def code_spec(self):
         return {}
@@ -61,11 +60,10 @@ def model_spec(self):
 class DiffusionPipeline:
     def __init__(
         self,
-        model: str = _DEFAULT_MODEL,
         w16: bool = False,
         shift: float = 1.0,
         use_t5: bool = True,
-        model_version: str = "stable-diffusion-3-medium",
+        model_version: str = "argmaxinc/mlx-stable-diffusion-3-medium",
         low_memory_mode: bool = True,
         a16: bool = False,
         local_ckpt=None,
@@ -78,7 +76,7 @@ def __init__(
         self.use_t5 = use_t5
         self.mmdit_ckpt = MMDIT_CKPT[model_version]
         self.low_memory_mode = low_memory_mode
-        self.model = model
+        self.model = _DEFAULT_MODEL
         self.model_version = model_version
         self.sampler = ModelSamplingDiscreteFlow(shift=shift)
         self.latent_format = SD3LatentFormat()
@@ -301,6 +299,13 @@ def generate_image(
         image_path: Optional[str] = None,
         denoise: float = 1.0,
     ):
+        # Check latent size is divisible by 2
+        assert (
+            latent_size[0] % 2 == 0
+        ), f"Height must be divisible by 16 ({latent_size[0]*8}/16={latent_size[0]/2})"
+        assert (
+            latent_size[1] % 2 == 0
+        ), f"Width must be divisible by 16 ({latent_size[1]*8}/16={latent_size[1]/2})"
         self.check_and_load_models()
         # Start timing
         start_time = time.time()
@@ -588,11 +593,10 @@ def encode_image_to_latents(self, image_path: str, seed):
 class FluxPipeline(DiffusionPipeline):
     def __init__(
         self,
-        model: str = _DEFAULT_MODEL,
         w16: bool = False,
         shift: float = 1.0,
         use_t5: bool = True,
-        model_version: str = "FLUX.1-schnell",
+        model_version: str = "argmaxinc/mlx-FLUX.1-schnell",
         low_memory_mode: bool = True,
         a16: bool = False,
         local_ckpt=None,
@@ -605,7 +609,7 @@ def __init__(
         self.activation_dtype = self.float16_dtype if a16 else mx.float32
         self.mmdit_ckpt = MMDIT_CKPT[model_version]
         self.low_memory_mode = low_memory_mode
-        self.model = model
+        self.model = _DEFAULT_MODEL
         self.model_version = model_version
         self.sampler = FluxSampler(shift=shift)
         self.latent_format = FluxLatentFormat()
diff --git a/python/src/diffusionkit/mlx/mmdit.py b/python/src/diffusionkit/mlx/mmdit.py
@@ -958,11 +958,14 @@ def affine_transform(
     norm_module: nn.Module = None,
 ) -> mx.array:
     """Affine transformation (Used for Adaptive LayerNorm Modulation)"""
-    if norm_module is not None:
+    if x.shape[0] == 1 and norm_module is not None:
         return mx.fast.layer_norm(
             x, 1.0 + residual_scale.squeeze(), shift.squeeze(), norm_module.eps
         )
-    return x * (1.0 + residual_scale) + shift
+    elif norm_module is not None:
+        return norm_module(x) * (1.0 + residual_scale) + shift
+    else:
+        return x * (1.0 + residual_scale) + shift
 
 
 def unpatchify(
diff --git a/python/src/diffusionkit/mlx/model_io.py b/python/src/diffusionkit/mlx/model_io.py
@@ -32,18 +32,18 @@
 
 
 RANK = 32
-_DEFAULT_MMDIT = "stabilityai/stable-diffusion-3-medium"
+_DEFAULT_MMDIT = "argmaxinc/mlx-stable-diffusion-3-medium"
 _MMDIT = {
-    "stabilityai/stable-diffusion-3-medium": {
-        "stable-diffusion-3-medium": "sd3_medium.safetensors",
+    "argmaxinc/mlx-stable-diffusion-3-medium": {
+        "argmaxinc/mlx-stable-diffusion-3-medium": "sd3_medium.safetensors",
         "vae": "sd3_medium.safetensors",
     },
     "argmaxinc/mlx-FLUX.1-schnell": {
-        "FLUX.1-schnell": "flux-schnell.safetensors",
+        "argmaxinc/mlx-FLUX.1-schnell": "flux-schnell.safetensors",
         "vae": "ae.safetensors",
     },
     "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": {
-        "FLUX.1-schnell-4bit-quantized": "flux-schnell-4bit-quantized.safetensors",
+        "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": "flux-schnell-4bit-quantized.safetensors",
         "vae": "ae.safetensors",
     },
     "raoulritter/flux-dev-mlx": {
@@ -67,7 +67,7 @@
 }
 
 _PREFIX = {
-    "stabilityai/stable-diffusion-3-medium": {
+    "argmaxinc/mlx-stable-diffusion-3-medium": {
         "vae_encoder": "first_stage_model.encoder.",
         "vae_decoder": "first_stage_model.decoder.",
     },
@@ -88,11 +88,11 @@
 _FLOAT16 = mx.bfloat16
 
 DEPTH = {
-    "stable-diffusion-3-medium": 24,
+    "argmaxinc/mlx-stable-diffusion-3-medium": 24,
     "sd3-8b-unreleased": 38,
 }
 MAX_LATENT_RESOLUTION = {
-    "stable-diffusion-3-medium": 96,
+    "argmaxinc/mlx-stable-diffusion-3-medium": 96,
     "sd3-8b-unreleased": 192,
 }
 
@@ -682,6 +682,7 @@ def load_mmdit(
 
     mmdit_weights = _MMDIT[key][model_key]
     mmdit_weights_ckpt = LOCAl_SD3_CKPT or hf_hub_download(key, mmdit_weights)
+    hf_hub_download(key, "config.json")
     weights = mx.load(mmdit_weights_ckpt)
     weights = mmdit_state_dict_adjustments(weights, prefix="model.diffusion_model.")
     weights = {k: v.astype(dtype) for k, v in weights.items()}
@@ -696,7 +697,7 @@ def load_mmdit(
 def load_flux(
     key: str = "argmaxinc/mlx-FLUX.1-schnell",
     float16: bool = False,
-    model_key: str = "FLUX.1-schnell",
+    model_key: str = "argmaxinc/mlx-FLUX.1-schnell",
     low_memory_mode: bool = True,
     only_modulation_dict: bool = False,
 ):
@@ -711,14 +712,16 @@ def load_flux(
     hf_hub_download(key, "config.json")
     weights = mx.load(flux_weights_ckpt)
 
-    if model_key in ["FLUX.1-schnell", "FLUX.1-dev"]:
+    if model_key in ["argmaxinc/mlx-FLUX.1-schnell", "argmaxinc/mlx-FLUX.1-dev"]:
         weights = flux_state_dict_adjustments(
             weights,
             prefix="",
             hidden_size=config.hidden_size,
             mlp_ratio=config.mlp_ratio,
         )
-    elif model_key == "FLUX.1-schnell-4bit-quantized":  # 4-bit ckpt already adjusted
+    elif (
+        model_key == "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized"
+    ):  # 4-bit ckpt already adjusted
         nn.quantize(model)
 
     weights = {
diff --git a/python/src/diffusionkit/mlx/scripts/generate_images.py b/python/src/diffusionkit/mlx/scripts/generate_images.py
@@ -13,22 +13,22 @@
 
 # Defaults
 HEIGHT = {
-    "stable-diffusion-3-medium": 512,
+    "argmaxinc/mlx-stable-diffusion-3-medium": 512,
     "sd3-8b-unreleased": 1024,
-    "FLUX.1-schnell": 512,
-    "FLUX.1-schnell-4bit-quantized": 512,
+    "argmaxinc/mlx-FLUX.1-schnell": 512,
+    "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": 512,
 }
 WIDTH = {
-    "stable-diffusion-3-medium": 512,
+    "argmaxinc/mlx-stable-diffusion-3-medium": 512,
     "sd3-8b-unreleased": 1024,
-    "FLUX.1-schnell": 512,
-    "FLUX.1-schnell-4bit-quantized": 512,
+    "argmaxinc/mlx-FLUX.1-schnell": 512,
+    "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": 512,
 }
 SHIFT = {
-    "stable-diffusion-3-medium": 3.0,
+    "argmaxinc/mlx-stable-diffusion-3-medium": 3.0,
     "sd3-8b-unreleased": 3.0,
-    "FLUX.1-schnell": 1.0,
-    "FLUX.1-schnell-4bit-quantized": 1.0,
+    "argmaxinc/mlx-FLUX.1-schnell": 1.0,
+    "argmaxinc/mlx-FLUX.1-schnell-4bit-quantized": 1.0,
 }
 
 
@@ -43,7 +43,7 @@ def cli():
     parser.add_argument(
         "--model-version",
         choices=tuple(MMDIT_CKPT.keys()),
-        default="FLUX.1-schnell",
+        default="argmaxinc/mlx-FLUX.1-schnell",
         help="Diffusion model version, e.g. FLUX-1.schnell, stable-diffusion-3-medium",
     )
     parser.add_argument(
@@ -127,7 +127,6 @@ def cli():
 
     # Load the models
     sd = pipeline_class(
-        model="argmaxinc/stable-diffusion",
         w16=args.w16,
         shift=shift,
         use_t5=args.t5,
@@ -143,6 +142,8 @@ def cli():
 
     height = args.height or HEIGHT[args.model_version]
     width = args.width or WIDTH[args.model_version]
+    assert height % 16 == 0, f"Height must be divisible by 16 ({height}/16={height/16})"
+    assert width % 16 == 0, f"Width must be divisible by 16 ({width}/16={width/16})"
     logger.info(f"Output image resolution will be {height}x{width}")
 
     if args.benchmark_mode:
diff --git a/python/src/diffusionkit/tests/mlx/test_diffusion_pipeline.py b/python/src/diffusionkit/tests/mlx/test_diffusion_pipeline.py
@@ -25,7 +25,7 @@
 
 LOW_MEMORY_MODE = True
 SAVE_IMAGES = True
-MODEL_VERSION = "stable-diffusion-3-medium"
+MODEL_VERSION = "argmaxinc/mlx-stable-diffusion-3-medium"
 USE_T5 = False
 SKIP_CORRECTNESS = False
 
@@ -49,7 +49,7 @@ def test_sd3_pipeline_correctness(self):
             metadata = json.load(f)
 
         # Group metadata by model size
-        model_examples = {"stable-diffusion-3-medium": []}
+        model_examples = {"argmaxinc/mlx-stable-diffusion-3-medium": []}
         for data in metadata:
             model_examples[data["model_version"]].append(data)
 
@@ -106,7 +106,7 @@ def test_memory_usage(self):
             metadata = json.load(f)
 
         # Group metadata by model size
-        model_examples = {"stable-diffusion-3-medium": []}
+        model_examples = {"argmaxinc/mlx-stable-diffusion-3-medium": []}
         for data in metadata:
             model_examples[data["model_version"]].append(data)
 
@@ -187,7 +187,7 @@ def main(args):
     parser.add_argument(
         "--model-size",
         type=str,
-        default="stable-diffusion-3-medium",
+        default="argmaxinc/mlx-stable-diffusion-3-medium",
         choices=tuple(MMDIT_CKPT.keys()),
         help="model version to test",
     )
diff --git a/setup.py b/setup.py
@@ -3,7 +3,7 @@
 from setuptools import find_packages, setup
 from setuptools.command.install import install
 
-VERSION = "0.3.2"
+VERSION = "0.3.5"
 
 
 class VersionInstallCommand(install):