wip support for bria's controlnet

Ilan Tchenak · Ilan Tchenak · commit 7d2a6665d887 · 2025-07-10T17:11:03.000+03:00
diff --git a/invokeai/backend/bria/controlnet.py b/invokeai/backend/bria/controlnet.py
@@ -0,0 +1,121 @@
+from diffusers.models.modeling_utils import ModelMixin
+from enum import Enum
+from typing import Literal
+
+BRIA_CONTROL_MODES = Literal["depth", "canny", "cologrid", "recolor", "tile", "pose"]
+class BriaControlModes(Enum):
+    depth = 0
+    canny = 1
+    cologrid = 2
+    recolor = 3
+    tile = 4
+    pose = 5
+
+class BriaMultiControlNetModel(ModelMixin):
+    r"""
+    `BriaMultiControlNetModel` wrapper class for Multi-BriaControlNetModel
+    This module is a wrapper for multiple instances of the `BriaControlNetModel`. The `forward()` API is designed to be
+    compatible with `BriaControlNetModel`.
+    Args:
+        controlnets (`List[BriaControlNetModel]`):
+            Provides additional conditioning to the unet during the denoising process. You must set multiple
+            `BriaControlNetModel` as a list.
+    """
+
+    def __init__(self, controlnets):
+        super().__init__()
+        self.nets = nn.ModuleList(controlnets)
+
+    def forward(
+        self,
+        hidden_states: torch.FloatTensor,
+        controlnet_cond: List[torch.tensor],
+        controlnet_mode: List[torch.tensor],
+        conditioning_scale: List[float],
+        encoder_hidden_states: torch.Tensor = None,
+        pooled_projections: torch.Tensor = None,
+        timestep: torch.LongTensor = None,
+        img_ids: torch.Tensor = None,
+        txt_ids: torch.Tensor = None,
+        guidance: torch.Tensor = None,
+        joint_attention_kwargs: Optional[Dict[str, Any]] = None,
+        return_dict: bool = True,
+    ) -> Union[BriaControlNetOutput, Tuple]:
+        # ControlNet-Union with multiple conditions
+        # only load one ControlNet for saving memories
+        if len(self.nets) == 1 and self.nets[0].union:
+            controlnet = self.nets[0]
+
+            for i, (image, mode, scale) in enumerate(zip(controlnet_cond, controlnet_mode, conditioning_scale)):
+                block_samples, single_block_samples = controlnet(
+                    hidden_states=hidden_states,
+                    controlnet_cond=image,
+                    controlnet_mode=mode[:, None],
+                    conditioning_scale=scale,
+                    timestep=timestep,
+                    guidance=guidance,
+                    pooled_projections=pooled_projections,
+                    encoder_hidden_states=encoder_hidden_states,
+                    txt_ids=txt_ids,
+                    img_ids=img_ids,
+                    joint_attention_kwargs=joint_attention_kwargs,
+                    return_dict=return_dict,
+                )
+
+                # merge samples
+                if i == 0:
+                    control_block_samples = block_samples
+                    control_single_block_samples = single_block_samples
+                else:
+                    control_block_samples = [
+                        control_block_sample + block_sample
+                        for control_block_sample, block_sample in zip(control_block_samples, block_samples)
+                    ]
+
+                    control_single_block_samples = [
+                        control_single_block_sample + block_sample
+                        for control_single_block_sample, block_sample in zip(
+                            control_single_block_samples, single_block_samples
+                        )
+                    ]
+
+        # Regular Multi-ControlNets
+        # load all ControlNets into memories
+        else:
+            for i, (image, mode, scale, controlnet) in enumerate(
+                zip(controlnet_cond, controlnet_mode, conditioning_scale, self.nets)
+            ):               
+                block_samples, single_block_samples = controlnet(
+                    hidden_states=hidden_states,
+                    controlnet_cond=image,
+                    controlnet_mode=mode[:, None],
+                    conditioning_scale=scale,
+                    timestep=timestep,
+                    guidance=guidance,
+                    pooled_projections=pooled_projections,
+                    encoder_hidden_states=encoder_hidden_states,
+                    txt_ids=txt_ids,
+                    img_ids=img_ids,
+                    joint_attention_kwargs=joint_attention_kwargs,
+                    return_dict=return_dict,
+                )
+
+                # merge samples
+                if i == 0:
+                    control_block_samples = block_samples
+                    control_single_block_samples = single_block_samples
+                else:
+                    if block_samples is not None and control_block_samples is not None:
+                        control_block_samples = [
+                            control_block_sample + block_sample
+                            for control_block_sample, block_sample in zip(control_block_samples, block_samples)
+                        ]
+                    if single_block_samples is not None and control_single_block_samples is not None:
+                        control_single_block_samples = [
+                            control_single_block_sample + block_sample
+                            for control_single_block_sample, block_sample in zip(
+                                control_single_block_samples, single_block_samples
+                            )
+                        ]
+
+        return control_block_samples, control_single_block_samples
diff --git a/invokeai/nodes/bria_nodes/bria_controlnet.py b/invokeai/nodes/bria_nodes/bria_controlnet.py
@@ -0,0 +1,70 @@
+from invokeai.backend.bria.controlnet import BRIA_CONTROL_MODES
+from pydantic import BaseModel, Field, field_validator, model_validator
+
+from invokeai.app.invocations.baseinvocation import (
+    BaseInvocation,
+    BaseInvocationOutput,
+    invocation,
+    invocation_output,
+)
+from invokeai.app.invocations.fields import FieldDescriptions, ImageField, InputField, OutputField, UIType
+from invokeai.app.invocations.model import ModelIdentifierField
+from invokeai.app.invocations.util import validate_begin_end_step, validate_weights
+from invokeai.app.services.shared.invocation_context import InvocationContext
+from invokeai.app.util.controlnet_utils import CONTROLNET_RESIZE_VALUES
+
+
+class BriaControlNetField(BaseModel):
+    image: ImageField = Field(description="The control image")
+    model: ModelIdentifierField = Field(description="The ControlNet model to use")
+    mode: BRIA_CONTROL_MODES = Field(description="The mode of the ControlNet")
+    controlnet_conditioning_scale: float = Field(description="The weight given to the ControlNet")
+    control_guidance_start: float = Field(description="When the ControlNet is first applied (% of total steps)")
+    control_guidance_end: float = Field(description="When the ControlNet is last applied (% of total steps)")
+
+
+@invocation_output("flux_controlnet_output")
+class BriaControlNetOutput(BaseInvocationOutput):
+    """FLUX ControlNet info"""
+
+    control: BriaControlNetField = OutputField(description=FieldDescriptions.control)
+
+
+@invocation(
+    "bria_controlnet",
+    title="Bria ControlNet",
+    tags=["controlnet", "bria"],
+    category="controlnet",
+    version="1.0.0",
+)
+class BriaControlNetInvocation(BaseInvocation):
+    """Collect Bria ControlNet info to pass to denoiser node."""
+
+    control_image: ImageField = InputField(description="The control image")
+    control_model: ModelIdentifierField = InputField(
+        description=FieldDescriptions.controlnet_model, ui_type=UIType.BriaControlNetModel
+    )
+    control_mode: BRIA_CONTROL_MODES = InputField(
+        default="depth", description="The mode of the ControlNet"
+    )
+    control_weight: float | list[float] = InputField(
+        default=1.0, ge=-1, le=2, description="The weight given to the ControlNet"
+    )
+    begin_step_percent: float = Field(
+        default=0, ge=0, le=1, description="When the ControlNet is first applied (% of total steps)"
+    )
+    end_step_percent: float = Field(
+        default=1, ge=0, le=1, description="When the ControlNet is last applied (% of total steps)"
+    )
+
+    def invoke(self, context: InvocationContext) -> BriaControlNetOutput:
+        return BriaControlNetOutput(
+            control=BriaControlNetField(
+                control_image=self.control_image,
+                model=self.control_model,
+                mode=self.control_mode,
+                controlnet_conditioning_scale=self.control_weight,
+                control_guidance_start=self.begin_step_percent,
+                control_guidance_end=self.end_step_percent,
+            ),
+        )
diff --git a/invokeai/nodes/bria_nodes/bria_denoiser.py b/invokeai/nodes/bria_nodes/bria_denoiser.py
@@ -1,3 +1,10 @@
+from typing import List, Tuple
+from PIL import Image
+from diffusers.pipelines import AutoencoderKL
+from invokeai.backend.bria.controlnet import BriaControlModes, BriaMultiControlNetModel
+from invokeai.nodes.bria_nodes.bria_controlnet import BriaControlNetField
+from diffusers.image_processor import VaeImageProcessor
+
 import torch
 from diffusers.schedulers.scheduling_flow_match_euler_discrete import FlowMatchEulerDiscreteScheduler
 
@@ -68,6 +75,11 @@ class BriaDenoiseInvocation(BaseInvocation):
         input=Input.Connection,
         title="Text IDs",
     )
+    control: BriaControlNetField | list[BriaControlNetField] | None = InputField(
+        description="ControlNet",
+        input=Input.Connection,
+        title="ControlNet",
+    )
 
     @torch.no_grad()
     def invoke(self, context: InvocationContext) -> BriaDenoiseInvocationOutput:
@@ -83,16 +95,29 @@ def invoke(self, context: InvocationContext) -> BriaDenoiseInvocationOutput:
         with (
             context.models.load(self.transformer.transformer) as transformer,
             context.models.load(scheduler_identifier) as scheduler,
+            context.models.load(self.vae.vae) as vae,
         ):
             assert isinstance(transformer, BriaTransformer2DModel)
             assert isinstance(scheduler, FlowMatchEulerDiscreteScheduler)
+            assert isinstance(vae, AutoencoderKL)
             dtype = transformer.dtype
             device = transformer.device
             latents, pos_embeds, neg_embeds = map(lambda x: x.to(device, dtype), (latents, pos_embeds, neg_embeds))
             prompt_embeds = torch.cat([neg_embeds, pos_embeds]) if self.guidance_scale > 1 else pos_embeds
 
             sigmas = get_original_sigmas(1000, self.num_steps)
             timesteps, _ = retrieve_timesteps(scheduler, self.num_steps, device, None, sigmas, mu=0.0)
+            width, height = latents.shape[-2:]
+            width, height = 1024, 1024
+            if self.control is not None:
+                control_model, control_images, control_modes, control_scales = self._prepare_multi_control(
+                        context=context,
+                        width=width,
+                        height=height,
+                        device=device,
+                        num_channels_latents=transformer.config.in_channels // 4
+                        
+                    )
 
             for t in timesteps:
                 # Prepare model input efficiently
@@ -101,11 +126,21 @@ def invoke(self, context: InvocationContext) -> BriaDenoiseInvocationOutput:
                 else:
                     latent_model_input = latents
                 
-                # Prepare timestep tensor efficiently
-                if isinstance(t, torch.Tensor):
-                    timestep_tensor = t.expand(latent_model_input.shape[0])
-                else:
-                    timestep_tensor = torch.tensor([t] * latent_model_input.shape[0], device=device, dtype=torch.float32)
+                timestep_tensor = t.expand(latent_model_input.shape[0])
+
+                controlnet_block_samples, controlnet_single_block_samples = None, None
+                if self.control is not None:
+                    controlnet_block_samples, controlnet_single_block_samples = control_model(
+                        hidden_states=latents,
+                        controlnet_cond=control_images, # type: ignore
+                        controlnet_mode=control_modes, # type: ignore
+                        conditioning_scale=control_scales, # type: ignore
+                        timestep=timestep_tensor,
+                        encoder_hidden_states=prompt_embeds,
+                        txt_ids=text_ids,
+                        img_ids=latent_image_ids,
+                        return_dict=False,
+                    )
 
                 noise_pred = transformer(
                         latent_model_input,
@@ -115,6 +150,8 @@ def invoke(self, context: InvocationContext) -> BriaDenoiseInvocationOutput:
                         txt_ids=text_ids,
                         guidance=None,
                         return_dict=False,
+                        controlnet_block_samples=controlnet_block_samples,
+                        controlnet_single_block_samples=controlnet_single_block_samples,
                     )[0]
 
                 if self.guidance_scale > 1:
@@ -131,3 +168,110 @@ def invoke(self, context: InvocationContext) -> BriaDenoiseInvocationOutput:
         saved_input_latents_tensor = context.tensors.save(latents)
         latents_output = LatentsField(latents_name=saved_input_latents_tensor)
         return BriaDenoiseInvocationOutput(latents=latents_output)
+
+
+
+    def _prepare_multi_control(
+        self,
+        context: InvocationContext,
+        width: int,
+        height: int,
+        device: torch.device,
+        num_channels_latents: int
+    ) -> Tuple[BriaMultiControlNetModel, List[torch.Tensor], List[torch.Tensor], List[float]]:
+
+        control = self.control if isinstance(self.control, list) else [self.control]
+        control_images, control_models, control_modes, control_scales = [], [], [], []
+        for controlnet in control:
+            control_models.append(context.models.load(controlnet.model))
+            control_images.append(context.images.get_pil(controlnet.image))
+            control_modes.append(BriaControlModes[controlnet.mode].value)   
+            control_scales.append(controlnet.controlnet_conditioning_scale)
+        
+        control_model = BriaMultiControlNetModel(control_models)
+        tensored_control_images, tensored_control_modes = self._prepare_control_images(control_images, control_modes, device, dtype, num_channels_latents)
+        return control_model, tensored_control_images, tensored_control_modes, control_scales
+        
+        
+    def _prepare_control_images(
+        self,
+        control_images: list[Image.Image],
+        control_modes: list[int],
+        device: torch.device,
+        dtype: torch.dtype,
+        num_channels_latents: int
+    ) -> Tuple[torch.Tensor, List[int]]:
+        
+        tensored_control_images = []
+        tensored_control_modes = []
+        for idx, control_image_ in enumerate(control_images):
+            tensored_control_image = self.prepare_image(
+                image=control_image_,
+                width=width,
+                height=height,
+                device=device,
+                dtype=vae.dtype,
+            )
+            height, width = tensored_control_image.shape[-2:]
+
+            # vae encode
+            tensored_control_image = vae.encode(tensored_control_image).latent_dist.sample()
+            tensored_control_image = (tensored_control_image - self.vae.config.shift_factor) * self.vae.config.scaling_factor
+
+            # pack
+            height_control_image, width_control_image = tensored_control_image.shape[2:]
+            tensored_control_image = self._pack_latents(
+                tensored_control_image,
+                height_control_image,
+                width_control_image,
+            )
+            tensored_control_images.append(tensored_control_image)
+            tensored_control_modes.append(torch.tensor(control_modes[idx]).expand(control_images[0].shape[0]).to(device, dtype=torch.long))
+
+        return tensored_control_images, tensored_control_modes
+    
+    def prepare_image(
+        self,
+        image: Image.Image,
+        width: int,
+        height: int,
+        device: torch.device,
+        dtype: torch.dtype,
+    ) -> torch.Tensor:
+        image = VaeImageProcessor(vae_scale_factor=16).preprocess(image, height=height, width=width)
+        image = image.repeat_interleave(1, dim=0)
+        image = image.to(device=device, dtype=dtype)
+        return image
+    
+    def _pack_latents(self, latents, height, width):
+        latents = latents.view(1, 1, height // 2, 2, width // 2, 2)
+        latents = latents.permute(0, 2, 4, 1, 3, 5)
+        latents = latents.reshape(1, (height // 2) * (width // 2), 4)
+
+        return latents
+
+
+
+    def get_controlnet_keep(self, timesteps, control_guidance_start, control_guidance_end):
+        controlnet_keep = []
+        for i in range(len(timesteps)):
+            keeps = [
+                1.0 - float(i / len(timesteps) < s or (i + 1) / len(timesteps) > e)
+                for s, e in zip(control_guidance_start, control_guidance_end)
+            ]
+            controlnet_keep.append(keeps[0] if isinstance(self.controlnet, BriaControlNetModel) else keeps)
+        return controlnet_keep
+
+    def get_control_start_end(self, control_guidance_start, control_guidance_end):
+        if not isinstance(control_guidance_start, list) and isinstance(control_guidance_end, list):
+            control_guidance_start = len(control_guidance_end) * [control_guidance_start]
+        elif not isinstance(control_guidance_end, list) and isinstance(control_guidance_start, list):
+            control_guidance_end = len(control_guidance_start) * [control_guidance_end]
+        elif not isinstance(control_guidance_start, list) and not isinstance(control_guidance_end, list):
+            mult = 1  # TODO - why is this 1?
+            control_guidance_start, control_guidance_end = (
+                mult * [control_guidance_start],
+                mult * [control_guidance_end],
+            )
+
+        return control_guidance_start, control_guidance_end