kohya-ss · rockerBOO · Apr 22, 2025
diff --git a/library/original_unet.py b/library/original_unet.py
@@ -112,6 +112,7 @@
 import torch
 from torch import nn
 from torch.nn import functional as F
+from torch.nn.attention import SDPBackend, sdpa_kernel
 from einops import rearrange
 from library.utils import setup_logging
 setup_logging()
@@ -560,6 +561,7 @@ def forward(self, hidden_states):
 
         return hidden_states
 
+kernels = [SDPBackend.FLASH_ATTENTION, SDPBackend.CUDNN_ATTENTION, SDPBackend.EFFICIENT_ATTENTION, SDPBackend.MATH]
 
 class CrossAttention(nn.Module):
     def __init__(
@@ -741,7 +743,8 @@ def forward_sdpa(self, x, context=None, mask=None):
         q, k, v = map(lambda t: rearrange(t, "b n (h d) -> b h n d", h=h), (q_in, k_in, v_in))
         del q_in, k_in, v_in
 
-        out = F.scaled_dot_product_attention(q, k, v, attn_mask=mask, dropout_p=0.0, is_causal=False)
+        with sdpa_kernel(kernels):
+            out = F.scaled_dot_product_attention(q, k, v, attn_mask=mask, dropout_p=0.0, is_causal=False)
 
         out = rearrange(out, "b h n d -> b n (h d)", h=h)
 

diff --git a/library/sdxl_original_unet.py b/library/sdxl_original_unet.py
@@ -29,6 +29,7 @@
 import torch.utils.checkpoint
 from torch import nn
 from torch.nn import functional as F
+from torch.nn.attention import SDPBackend, sdpa_kernel
 from einops import rearrange
 from .utils import setup_logging
 
@@ -387,6 +388,7 @@ def custom_forward(*inputs):
 
         return hidden_states
 
+kernels = [SDPBackend.FLASH_ATTENTION, SDPBackend.CUDNN_ATTENTION, SDPBackend.EFFICIENT_ATTENTION, SDPBackend.MATH]
 
 class CrossAttention(nn.Module):
     def __init__(
@@ -545,7 +547,8 @@ def forward_sdpa(self, x, context=None, mask=None):
         q, k, v = map(lambda t: rearrange(t, "b n (h d) -> b h n d", h=h), (q_in, k_in, v_in))
         del q_in, k_in, v_in
 
-        out = F.scaled_dot_product_attention(q, k, v, attn_mask=mask, dropout_p=0.0, is_causal=False)
+        with sdpa_kernel(kernels):
+            out = F.scaled_dot_product_attention(q, k, v, attn_mask=mask, dropout_p=0.0, is_causal=False)
 
         out = rearrange(out, "b h n d -> b n (h d)", h=h)