Optimize CPU kernels

pxl-th · pxl-th · commit bf4d6cf8dc86 · 2023-04-10T23:08:17.000+03:00
diff --git a/src/upsample.jl b/src/upsample.jl
@@ -397,9 +397,10 @@ upsample_trilinear_whdcn!(y, x) = upsample_linear_kernel!(y, x)
     @uniform in_width::UInt32, channels::UInt32, batch::UInt32 = size(x)
     @uniform out_width::UInt32 = size(y, 1)
     c::UInt32, n::UInt32 = @index(Global, NTuple)
+    yv, xv = @view(y[:, c, n]), @view(x[:, c, n])
     @inbounds for i in UnitRange{UInt32}(one(UInt32), out_width)
-        iw0, iw1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, in_width)
-        y[i, c, n] = w0lambda * x[iw0, c, n] + w1lambda * x[iw1, c, n]
+        iw0, iw1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, in_width)
+        yv[i] = w0λ * xv[iw0] + w1λ * xv[iw1]
     end
 end
 
@@ -409,11 +410,12 @@ end
     @uniform in_width::UInt32, channels::UInt32, batch::UInt32 = size(Δ)
     @uniform out_width::UInt32 = size(dx, 1)
     c::UInt32, n::UInt32 = @index(Global, NTuple)
+    Δv, dxv = @view(Δ[:, c, n]), @view(dx[:, c, n])
     @inbounds for i in UnitRange{UInt32}(one(UInt32), in_width)
-        ow0, ow1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, out_width)
-        val = Δ[i, c, n]
-        dx[ow0, c, n] += w0lambda * val
-        dx[ow1, c, n] += w1lambda * val
+        ow0, ow1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, out_width)
+        val = Δv[i]
+        dxv[ow0] += w0λ * val
+        dxv[ow1] += w1λ * val
     end
 end
 
@@ -425,9 +427,9 @@ end
 }
     @uniform in_width::UInt32, channels::UInt32, batch::UInt32 = size(x)
     i::UInt32 = @index(Global)
-    iw0, iw1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, in_width)
+    iw0, iw1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, in_width)
     @inbounds for n in UnitRange{UInt32}(one(UInt32), batch), c in UnitRange{UInt32}(one(UInt32), channels)
-        y[i, c, n] = w0lambda * x[iw0, c, n] + w1lambda * x[iw1, c, n]
+        y[i, c, n] = w0λ * x[iw0, c, n] + w1λ * x[iw1, c, n]
     end
 end
 
@@ -437,11 +439,11 @@ end
     @uniform in_width::UInt32, channels::UInt32, batch::UInt32 = size(Δ)
     @uniform out_width::UInt32 = size(dx, 1)
     i::UInt32 = @index(Global)
-    ow0, ow1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, out_width)
+    ow0, ow1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, out_width)
     @inbounds for n in UnitRange{UInt32}(one(UInt32), batch), c in UnitRange{UInt32}(one(UInt32), channels)
         val = Δ[i, c, n]
-        @atomic dx[ow0, c, n] += w0lambda * val
-        @atomic dx[ow1, c, n] += w1lambda * val
+        @atomic dx[ow0, c, n] += w0λ * val
+        @atomic dx[ow1, c, n] += w1λ * val
     end
 end
 
@@ -453,13 +455,14 @@ end
     @uniform in_width::UInt32, in_height::UInt32, channels::UInt32, batch::UInt32 = size(x)
     @uniform out_width::UInt32, out_height::UInt32 = size(y)[1:2]
     c::UInt32, n::UInt32 = @index(Global, NTuple)
+    yv, xv = @view(y[:, :, c, n]), @view(x[:, :, c, n])
     for j in UnitRange{UInt32}(one(UInt32), out_height)
-        ih0, ih1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, in_height)
+        ih0, ih1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, in_height)
         for i in UnitRange{UInt32}(one(UInt32), out_width)
-            iw0, iw1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, in_width)
-            @inbounds y[i, j, c, n] =
-                h0lambda * (w0lambda * x[iw0, ih0, c, n] + w1lambda * x[iw1, ih0, c, n]) +
-                h1lambda * (w0lambda * x[iw0, ih1, c, n] + w1lambda * x[iw1, ih1, c, n])
+            iw0, iw1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, in_width)
+            @inbounds yv[i, j] =
+                h0λ * (w0λ * xv[iw0, ih0] + w1λ * xv[iw1, ih0]) +
+                h1λ * (w0λ * xv[iw0, ih1] + w1λ * xv[iw1, ih1])
         end
     end
 end
@@ -470,15 +473,16 @@ end
     @uniform in_width::UInt32, in_height::UInt32, channels::UInt32, batch::UInt32 = size(Δ)
     @uniform out_width::UInt32, out_height::UInt32 = size(dx)[1:2]
     c::UInt32, n::UInt32 = @index(Global, NTuple)
+    Δv, dxv = @view(Δ[:, :, c, n]), @view(dx[:, :, c, n])
     for j in UnitRange{UInt32}(one(UInt32), in_height)
-        oh0, oh1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, out_height)
-        for i in UnitRange{UInt32}(one(UInt32), in_width)
-            ow0, ow1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, out_width)
-            val = Δ[i, j, c, n]
-            dx[ow0, oh0, c, n] += w0lambda * h0lambda * val
-            dx[ow1, oh0, c, n] += w1lambda * h0lambda * val
-            dx[ow0, oh1, c, n] += w0lambda * h1lambda * val
-            dx[ow1, oh1, c, n] += w1lambda * h1lambda * val
+        oh0, oh1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, out_height)
+        @inbounds for i in UnitRange{UInt32}(one(UInt32), in_width)
+            ow0, ow1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, out_width)
+            val = Δv[i, j]
+            dxv[ow0, oh0] += w0λ * h0λ * val
+            dxv[ow1, oh0] += w1λ * h0λ * val
+            dxv[ow0, oh1] += w0λ * h1λ * val
+            dxv[ow1, oh1] += w1λ * h1λ * val
         end
     end
 end
@@ -490,12 +494,12 @@ end
 }
     @uniform in_width::UInt32, in_height::UInt32, channels::UInt32, batch::UInt32 = size(x)
     i::UInt32, j::UInt32 = @index(Global, NTuple)
-    iw0, iw1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, in_width)
-    ih0, ih1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, in_height)
+    iw0, iw1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, in_width)
+    ih0, ih1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, in_height)
     @inbounds for n in UnitRange{UInt32}(one(UInt32), batch), c in UnitRange{UInt32}(one(UInt32), channels)
         y[i, j, c, n] =
-            h0lambda * (w0lambda * x[iw0, ih0, c, n] + w1lambda * x[iw1, ih0, c, n]) +
-            h1lambda * (w0lambda * x[iw0, ih1, c, n] + w1lambda * x[iw1, ih1, c, n])
+            h0λ * (w0λ * x[iw0, ih0, c, n] + w1λ * x[iw1, ih0, c, n]) +
+            h1λ * (w0λ * x[iw0, ih1, c, n] + w1λ * x[iw1, ih1, c, n])
     end
 end
 
@@ -505,14 +509,14 @@ end
     @uniform in_width::UInt32, in_height::UInt32, channels::UInt32, batch::UInt32 = size(Δ)
     @uniform out_width::UInt32, out_height::UInt32 = size(dx)[1:2]
     i::UInt32, j::UInt32 = @index(Global, NTuple)
-    ow0, ow1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, out_width)
-    oh0, oh1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, out_height)
+    ow0, ow1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, out_width)
+    oh0, oh1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, out_height)
     @inbounds for n in UnitRange{UInt32}(one(UInt32), batch), c in UnitRange{UInt32}(one(UInt32), channels)
         val = Δ[i, j, c, n]
-        @atomic dx[ow0, oh0, c, n] += w0lambda * h0lambda * val
-        @atomic dx[ow1, oh0, c, n] += w1lambda * h0lambda * val
-        @atomic dx[ow0, oh1, c, n] += w0lambda * h1lambda * val
-        @atomic dx[ow1, oh1, c, n] += w1lambda * h1lambda * val
+        @atomic dx[ow0, oh0, c, n] += w0λ * h0λ * val
+        @atomic dx[ow1, oh0, c, n] += w1λ * h0λ * val
+        @atomic dx[ow0, oh1, c, n] += w0λ * h1λ * val
+        @atomic dx[ow1, oh1, c, n] += w1λ * h1λ * val
     end
 end
 
@@ -525,19 +529,20 @@ end
     @uniform channels::UInt32, batch::UInt32 = size(x, 4), size(x, 5)
     @uniform out_width::UInt32, out_height::UInt32, out_depth::UInt32 = size(y)[1:3]
     c::UInt32, n::UInt32 = @index(Global, NTuple)
+    yv, xv = @view(y[:, :, :, c, n]), @view(x[:, :, :, c, n])
     for k in UnitRange{UInt32}(one(UInt32), out_depth)
-        id0, id1, d0lambda, d1lambda = source_index_and_lambda(rdepth, k - one(UInt32), align, in_depth)
+        id0, id1, d0λ, d1λ = source_idx_and_λ(rdepth, k - one(UInt32), align, in_depth)
         for j in UnitRange{UInt32}(one(UInt32), out_height)
-            ih0, ih1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, in_height)
+            ih0, ih1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, in_height)
             for i in UnitRange{UInt32}(one(UInt32), out_width)
-                iw0, iw1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, in_width)
-                @inbounds y[i, j, k, c, n] =
-                    d0lambda * (
-                        h0lambda * (w0lambda * x[iw0, ih0, id0, c, n] + w1lambda * x[iw1, ih0, id0, c, n]) +
-                        h1lambda * (w0lambda * x[iw0, ih1, id0, c, n] + w1lambda * x[iw1, ih1, id0, c, n])) +
-                    d1lambda * (
-                        h0lambda * (w0lambda * x[iw0, ih0, id1, c, n] + w1lambda * x[iw1, ih0, id1, c, n]) +
-                        h1lambda * (w0lambda * x[iw0, ih1, id1, c, n] + w1lambda * x[iw1, ih1, id1, c, n]))
+                iw0, iw1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, in_width)
+                @inbounds yv[i, j, k] =
+                    d0λ * (
+                        h0λ * (w0λ * xv[iw0, ih0, id0] + w1λ * xv[iw1, ih0, id0]) +
+                        h1λ * (w0λ * xv[iw0, ih1, id0] + w1λ * xv[iw1, ih1, id0])) +
+                    d1λ * (
+                        h0λ * (w0λ * xv[iw0, ih0, id1] + w1λ * xv[iw1, ih0, id1]) +
+                        h1λ * (w0λ * xv[iw0, ih1, id1] + w1λ * xv[iw1, ih1, id1]))
             end
         end
     end
@@ -550,22 +555,23 @@ end
     @uniform channels::UInt32, batch::UInt32 = size(Δ, 4), size(Δ, 5)
     @uniform out_width::UInt32, out_height::UInt32, out_depth::UInt32 = size(dx)[1:3]
     c::UInt32, n::UInt32 = @index(Global, NTuple)
+    Δv, dxv = @view(Δ[:, :, :, c, n]), @view(dx[:, :, :, c, n])
     for k in UnitRange{UInt32}(one(UInt32), in_depth)
-        od0, od1, d0lambda, d1lambda = source_index_and_lambda(rdepth, k - one(UInt32), align, out_depth)
+        od0, od1, d0λ, d1λ = source_idx_and_λ(rdepth, k - one(UInt32), align, out_depth)
         for j in UnitRange{UInt32}(one(UInt32), in_height)
-            oh0, oh1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, out_height)
+            oh0, oh1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, out_height)
             @inbounds for i in UnitRange{UInt32}(one(UInt32), in_width)
-                ow0, ow1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, out_width)
-                val = Δ[i, j, k, c, n]
-                dx[ow0, oh0, od0, c, n] += w0lambda * h0lambda * d0lambda * val
-                dx[ow1, oh0, od0, c, n] += w1lambda * h0lambda * d0lambda * val
-                dx[ow0, oh1, od0, c, n] += w0lambda * h1lambda * d0lambda * val
-                dx[ow1, oh1, od0, c, n] += w1lambda * h1lambda * d0lambda * val
-
-                dx[ow0, oh0, od1, c, n] += w0lambda * h0lambda * d1lambda * val
-                dx[ow1, oh0, od1, c, n] += w1lambda * h0lambda * d1lambda * val
-                dx[ow0, oh1, od1, c, n] += w0lambda * h1lambda * d1lambda * val
-                dx[ow1, oh1, od1, c, n] += w1lambda * h1lambda * d1lambda * val
+                ow0, ow1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, out_width)
+                val = Δv[i, j, k]
+                dxv[ow0, oh0, od0] += w0λ * h0λ * d0λ * val
+                dxv[ow1, oh0, od0] += w1λ * h0λ * d0λ * val
+                dxv[ow0, oh1, od0] += w0λ * h1λ * d0λ * val
+                dxv[ow1, oh1, od0] += w1λ * h1λ * d0λ * val
+
+                dxv[ow0, oh0, od1] += w0λ * h0λ * d1λ * val
+                dxv[ow1, oh0, od1] += w1λ * h0λ * d1λ * val
+                dxv[ow0, oh1, od1] += w0λ * h1λ * d1λ * val
+                dxv[ow1, oh1, od1] += w1λ * h1λ * d1λ * val
             end
         end
     end
@@ -579,17 +585,17 @@ end
     @uniform in_width::UInt32, in_height::UInt32, in_depth::UInt32 = size(x)[1:3]
     @uniform channels::UInt32, batch::UInt32 = size(x, 4), size(x, 5)
     i::UInt32, j::UInt32, k::UInt32 = @index(Global, NTuple)
-    iw0, iw1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, in_width)
-    ih0, ih1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, in_height)
-    id0, id1, d0lambda, d1lambda = source_index_and_lambda(rdepth, k - one(UInt32), align, in_depth)
+    iw0, iw1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, in_width)
+    ih0, ih1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, in_height)
+    id0, id1, d0λ, d1λ = source_idx_and_λ(rdepth, k - one(UInt32), align, in_depth)
     @inbounds for n in UnitRange{UInt32}(one(UInt32), batch), c in UnitRange{UInt32}(one(UInt32), channels)
         y[i, j, k, c, n] =
-            d0lambda * (
-                h0lambda * (w0lambda * x[iw0, ih0, id0, c, n] + w1lambda * x[iw1, ih0, id0, c, n]) +
-                h1lambda * (w0lambda * x[iw0, ih1, id0, c, n] + w1lambda * x[iw1, ih1, id0, c, n])) +
-            d1lambda * (
-                h0lambda * (w0lambda * x[iw0, ih0, id1, c, n] + w1lambda * x[iw1, ih0, id1, c, n]) +
-                h1lambda * (w0lambda * x[iw0, ih1, id1, c, n] + w1lambda * x[iw1, ih1, id1, c, n]))
+            d0λ * (
+                h0λ * (w0λ * x[iw0, ih0, id0, c, n] + w1λ * x[iw1, ih0, id0, c, n]) +
+                h1λ * (w0λ * x[iw0, ih1, id0, c, n] + w1λ * x[iw1, ih1, id0, c, n])) +
+            d1λ * (
+                h0λ * (w0λ * x[iw0, ih0, id1, c, n] + w1λ * x[iw1, ih0, id1, c, n]) +
+                h1λ * (w0λ * x[iw0, ih1, id1, c, n] + w1λ * x[iw1, ih1, id1, c, n]))
     end
 end
 
@@ -600,24 +606,24 @@ end
     @uniform channels::UInt32, batch::UInt32 = size(Δ, 4), size(Δ, 5)
     @uniform out_width::UInt32, out_height::UInt32, out_depth::UInt32 = size(dx)[1:3]
     i::UInt32, j::UInt32, k::UInt32 = @index(Global, NTuple)
-    ow0, ow1, w0lambda, w1lambda = source_index_and_lambda(rwidth, i - one(UInt32), align, out_width)
-    oh0, oh1, h0lambda, h1lambda = source_index_and_lambda(rheight, j - one(UInt32), align, out_height)
-    od0, od1, d0lambda, d1lambda = source_index_and_lambda(rdepth, k - one(UInt32), align, out_depth)
+    ow0, ow1, w0λ, w1λ = source_idx_and_λ(rwidth, i - one(UInt32), align, out_width)
+    oh0, oh1, h0λ, h1λ = source_idx_and_λ(rheight, j - one(UInt32), align, out_height)
+    od0, od1, d0λ, d1λ = source_idx_and_λ(rdepth, k - one(UInt32), align, out_depth)
     @inbounds for n in UnitRange{UInt32}(one(UInt32), batch), c in UnitRange{UInt32}(one(UInt32), channels)
         val = Δ[i, j, k, c, n]
-        @atomic dx[ow0, oh0, od0, c, n] += w0lambda * h0lambda * d0lambda * val
-        @atomic dx[ow1, oh0, od0, c, n] += w1lambda * h0lambda * d0lambda * val
-        @atomic dx[ow0, oh1, od0, c, n] += w0lambda * h1lambda * d0lambda * val
-        @atomic dx[ow1, oh1, od0, c, n] += w1lambda * h1lambda * d0lambda * val
-
-        @atomic dx[ow0, oh0, od1, c, n] += w0lambda * h0lambda * d1lambda * val
-        @atomic dx[ow1, oh0, od1, c, n] += w1lambda * h0lambda * d1lambda * val
-        @atomic dx[ow0, oh1, od1, c, n] += w0lambda * h1lambda * d1lambda * val
-        @atomic dx[ow1, oh1, od1, c, n] += w1lambda * h1lambda * d1lambda * val
+        @atomic dx[ow0, oh0, od0, c, n] += w0λ * h0λ * d0λ * val
+        @atomic dx[ow1, oh0, od0, c, n] += w1λ * h0λ * d0λ * val
+        @atomic dx[ow0, oh1, od0, c, n] += w0λ * h1λ * d0λ * val
+        @atomic dx[ow1, oh1, od0, c, n] += w1λ * h1λ * d0λ * val
+
+        @atomic dx[ow0, oh0, od1, c, n] += w0λ * h0λ * d1λ * val
+        @atomic dx[ow1, oh0, od1, c, n] += w1λ * h0λ * d1λ * val
+        @atomic dx[ow0, oh1, od1, c, n] += w0λ * h1λ * d1λ * val
+        @atomic dx[ow1, oh1, od1, c, n] += w1λ * h1λ * d1λ * val
     end
 end
 
-@inline function source_index_and_lambda(
+@inline function source_idx_and_λ(
     ratio::T, out_idx::UInt32, ::Val{align}, in_width::UInt32,
 ) where {T, align}
     real_index = align ?
@@ -629,6 +635,6 @@ end
     iw1 = iw0 + offset + one(UInt32)
 
     w1lambda = real_index - iw0
-    w0lambda = T(1) - w1lambda
+    w0lambda = one(T) - w1lambda
     return iw0 + one(UInt32), iw1, w0lambda, w1lambda
 end