CliMA
diff --git a/‎benchmarks/scripts/thermo_bench_bw.jl
Lines changed: 14 additions & 12 deletions b/‎benchmarks/scripts/thermo_bench_bw.jl
Lines changed: 14 additions & 12 deletions
diff --git a/‎ext/ClimaCoreCUDAExt.jl
Lines changed: 2 additions & 0 deletions b/‎ext/ClimaCoreCUDAExt.jl
Lines changed: 2 additions & 0 deletions
diff --git a/‎ext/cuda/data_layouts.jl
Lines changed: 24 additions & 0 deletions b/‎ext/cuda/data_layouts.jl
Lines changed: 24 additions & 0 deletions
diff --git a/‎ext/cuda/data_layouts_copyto.jl
Lines changed: 56 additions & 73 deletions b/‎ext/cuda/data_layouts_copyto.jl
Lines changed: 56 additions & 73 deletions
diff --git a/‎ext/cuda/data_layouts_fill.jl
Lines changed: 5 additions & 0 deletions b/‎ext/cuda/data_layouts_fill.jl
Lines changed: 5 additions & 0 deletions
diff --git a/‎ext/cuda/topologies_dss.jl
Lines changed: 28 additions & 23 deletions b/‎ext/cuda/topologies_dss.jl
Lines changed: 28 additions & 23 deletions
@@ -150,7 +150,7 @@ using BenchmarkTools
 import .TestUtilities as TU;
 
 using Test
-@testset "Thermo state" begin
+# @testset "Thermo state" begin
     FT = Float32
     bm = TBB.Benchmark(;problem_size=(63,4,4,1,5400), float_type=FT)
     device = ClimaComms.device()
@@ -175,7 +175,8 @@ using Test
     )
     x = fill((; ts = zero(TBB.PhaseEquil{FT}), nt_core...), cspace)
     xv = fill((; ts = nt_ts, nt_core...), cspace)
-    (_, Nij, _, Nv, Nh) = size(Fields.field_values(x.ts))
+    fv_ts = Fields.field_values(x.ts)
+    (_, Nij, _, Nv, Nh) = size(fv_ts)
     us = TBB.UniversalSizesStatic(Nv, Nij, Nh)
     function to_vec(ξ)
         pns = propertynames(ξ)
@@ -186,7 +187,7 @@ using Test
         end
         return (; zip(propertynames(ξ), dl_vals)...)
     end
-    x_vec = to_vec(xv)
+    # x_vec = to_vec(xv)
 
     x_aos = fill((; ρ_read = FT(0), ρ_write = FT(0)), cspace)
     x_soa = (;
@@ -199,20 +200,21 @@ using Test
     @. x_aos.ρ_write = 7
     TBB.singlefield_bc!(x_soa, us; nreps=1, n_trials = 1)
     TBB.singlefield_bc!(x_aos, us; nreps=1, n_trials = 1)
-
+    
     TBB.thermo_func_bc!(x, us; nreps=1, n_trials = 1)
-    TBB.thermo_func_sol!(x_vec, us; nreps=1, n_trials = 1)
+    # TBB.thermo_func_sol!(x_vec, us; nreps=1, n_trials = 1)
 
-    rc = Fields.rcompare(x_vec, to_vec(x))
-    rc || Fields.@rprint_diff(x_vec, to_vec(x)) # test correctness (should print nothing)
-    @test rc # test correctness
+    # rc = Fields.rcompare(x_vec, to_vec(x))
+    # rc || Fields.@rprint_diff(x_vec, to_vec(x)) # test correctness (should print nothing)
+    # @test rc # test correctness
 
-    TBB.singlefield_bc!(x_soa, us; nreps=100, bm)
-    TBB.singlefield_bc!(x_aos, us; nreps=100, bm)
+    # TBB.singlefield_bc!(x_soa, us; nreps=100, bm)
+    # TBB.singlefield_bc!(x_aos, us; nreps=100, bm)
     TBB.thermo_func_bc!(x, us; nreps=100, bm)
-    TBB.thermo_func_sol!(x_vec, us; nreps=100, bm)
+    @info "Success!"
+    # TBB.thermo_func_sol!(x_vec, us; nreps=100, bm)
 
     TBB.tabulate_benchmark(bm)
 
-end
+# end
 #! format: on
@@ -17,6 +17,8 @@ import ClimaCore.Utilities: cart_ind, linear_ind
 import ClimaCore.RecursiveApply:
     ⊠, ⊞, ⊟, radd, rmul, rsub, rdiv, rmap, rzero, rmin, rmax
 import ClimaCore.DataLayouts: get_N, get_Nv, get_Nij, get_Nij, get_Nh
+import ClimaCore.DataLayouts: universal_size, UniversalSize
+import ClimaCore.DataLayouts: ArraySize
 
 include(joinpath("cuda", "cuda_utils.jl"))
 include(joinpath("cuda", "data_layouts.jl"))
 
@@ -13,6 +13,17 @@ import CUDA
 parent_array_type(::Type{<:CUDA.CuArray{T, N, B} where {N}}) where {T, B} =
     CUDA.CuArray{T, N, B} where {N}
 
+# Can we remove this?
+# parent_array_type(
+#     ::Type{<:CUDA.CuArray{T, N, B} where {N}},
+#     ::Val{ND},
+# ) where {T, B, ND} = CUDA.CuArray{T, ND, B}
+
+parent_array_type(
+    ::Type{<:CUDA.CuArray{T, N, B} where {N}},
+    as::ArraySize,
+) where {T, B} = CUDA.CuArray{T, ndims(as), B}
+
 # Ensure that both parent array types have the same memory buffer type.
 promote_parent_array_type(
     ::Type{CUDA.CuArray{T1, N, B} where {N}},
@@ -53,3 +64,16 @@ function Adapt.adapt_structure(
         end,
     )
 end
+
+import Adapt
+import CUDA
+function Adapt.adapt_structure(
+    to::CUDA.KernelAdaptor,
+    bc::DataLayouts.NonExtrudedBroadcasted{Style},
+) where {Style}
+    DataLayouts.NonExtrudedBroadcasted{Style}(
+        adapt_f(to, bc.f),
+        Adapt.adapt(to, bc.args),
+        Adapt.adapt(to, bc.axes),
+    )
+end
@@ -1,87 +1,60 @@
+import ClimaCore.DataLayouts:
+    to_non_extruded_broadcasted, has_uniform_datalayouts
 DataLayouts._device_dispatch(x::CUDA.CuArray) = ToCUDA()
 
-function knl_copyto!(dest, src)
+# function Base.copyto!(
+#     dest::VIJFH{S, Nv, Nij, Nh},
+#     bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, Nh},
+#     ::ToCUDA,
+# ) where {S, Nv, Nij, Nh}
+#     if Nv > 0 && Nh > 0
+#         us = DataLayouts.UniversalSize(dest)
+#         n = prod(DataLayouts.universal_size(us))
+#         if has_uniform_datalayouts(bc)
+#             bc′ = to_non_extruded_broadcasted(bc)
+#             auto_launch!(knl_copyto_linear!, (dest, bc′, us), n; auto = true)
+#         else
+#             auto_launch!(knl_copyto_cart!, (dest, bc, us), n; auto = true)
+#         end
+#     end
+#     return dest
+# end
 
-    i = CUDA.threadIdx().x
-    j = CUDA.threadIdx().y
-
-    h = CUDA.blockIdx().x
-    v = CUDA.blockDim().z * (CUDA.blockIdx().y - 1) + CUDA.threadIdx().z
-
-    if v <= size(dest, 4)
-        I = CartesianIndex((i, j, 1, v, h))
-        @inbounds dest[I] = src[I]
+function knl_copyto_linear!(dest::AbstractData, bc, us)
+    @inbounds begin
+        tidx = thread_index()
+        if tidx ≤ get_N(us)
+            dest[tidx] = bc[tidx]
+        end
     end
     return nothing
 end
 
-function Base.copyto!(
-    dest::IJFH{S, Nij, Nh},
-    bc::DataLayouts.BroadcastedUnionIJFH{S, Nij, Nh},
-    ::ToCUDA,
-) where {S, Nij, Nh}
-    if Nh > 0
-        auto_launch!(
-            knl_copyto!,
-            (dest, bc);
-            threads_s = (Nij, Nij),
-            blocks_s = (Nh, 1),
-        )
-    end
-    return dest
-end
-
-function Base.copyto!(
-    dest::VIJFH{S, Nv, Nij, Nh},
-    bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, Nh},
-    ::ToCUDA,
-) where {S, Nv, Nij, Nh}
-    if Nv > 0 && Nh > 0
-        Nv_per_block = min(Nv, fld(256, Nij * Nij))
-        Nv_blocks = cld(Nv, Nv_per_block)
-        auto_launch!(
-            knl_copyto!,
-            (dest, bc);
-            threads_s = (Nij, Nij, Nv_per_block),
-            blocks_s = (Nh, Nv_blocks),
-        )
-    end
-    return dest
+function knl_copyto_linear!(dest::DataF, bc, us)
+    tidx = thread_index()
+    @inbounds dest[] = bc[tidx]
+    return nothing
 end
 
-function Base.copyto!(
-    dest::VF{S, Nv},
-    bc::DataLayouts.BroadcastedUnionVF{S, Nv},
-    ::ToCUDA,
-) where {S, Nv}
-    if Nv > 0
-        auto_launch!(
-            knl_copyto!,
-            (dest, bc);
-            threads_s = (1, 1),
-            blocks_s = (1, Nv),
-        )
+function knl_copyto_flat!(dest::AbstractData, bc, us)
+    @inbounds begin
+        tidx = thread_index()
+        if tidx ≤ get_N(us)
+            n = size(dest)
+            I = kernel_indexes(tidx, n)
+            dest[I] = bc[I]
+        end
     end
-    return dest
-end
-
-function Base.copyto!(
-    dest::DataF{S},
-    bc::DataLayouts.BroadcastedUnionDataF{S},
-    ::ToCUDA,
-) where {S}
-    auto_launch!(knl_copyto!, (dest, bc); threads_s = (1, 1), blocks_s = (1, 1))
-    return dest
+    return nothing
 end
 
-import ClimaCore.DataLayouts: isascalar
-function knl_copyto_flat!(dest::AbstractData, bc, us)
+function knl_copyto_flat!(dest::DataF, bc, us)
     @inbounds begin
         tidx = thread_index()
         if tidx ≤ get_N(us)
             n = size(dest)
             I = kernel_indexes(tidx, n)
-            dest[I] = bc[I]
+            dest[] = bc[I]
         end
     end
     return nothing
@@ -90,22 +63,32 @@ end
 function cuda_copyto!(dest::AbstractData, bc)
     (_, _, Nv, _, Nh) = DataLayouts.universal_size(dest)
     us = DataLayouts.UniversalSize(dest)
+    n = prod(DataLayouts.universal_size(us))
     if Nv > 0 && Nh > 0
-        nitems = prod(DataLayouts.universal_size(dest))
-        auto_launch!(knl_copyto_flat!, (dest, bc, us), nitems; auto = true)
+        if has_uniform_datalayouts(bc)
+            bc′ = to_non_extruded_broadcasted(bc)
+            auto_launch!(
+                knl_copyto_linear!,
+                (dest, bc′, us),
+                nitems;
+                auto = true,
+            )
+        else
+            auto_launch!(knl_copyto_flat!, (dest, bc, us), nitems; auto = true)
+        end
     end
     return dest
 end
 
 # TODO: can we use CUDA's luanch configuration for all data layouts?
 # Currently, it seems to have a slight performance degradation.
 #! format: off
-# Base.copyto!(dest::IJFH{S, Nij},          bc::DataLayouts.BroadcastedUnionIJFH{S, Nij, Nh}, ::ToCUDA) where {S, Nij, Nh} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::IJFH{S, Nij},          bc::DataLayouts.BroadcastedUnionIJFH{S, Nij, Nh}, ::ToCUDA) where {S, Nij, Nh} = cuda_copyto!(dest, bc)
 Base.copyto!(dest::IFH{S, Ni, Nh},        bc::DataLayouts.BroadcastedUnionIFH{S, Ni, Nh}, ::ToCUDA) where {S, Ni, Nh} = cuda_copyto!(dest, bc)
 Base.copyto!(dest::IJF{S, Nij},           bc::DataLayouts.BroadcastedUnionIJF{S, Nij}, ::ToCUDA) where {S, Nij} = cuda_copyto!(dest, bc)
 Base.copyto!(dest::IF{S, Ni},             bc::DataLayouts.BroadcastedUnionIF{S, Ni}, ::ToCUDA) where {S, Ni} = cuda_copyto!(dest, bc)
 Base.copyto!(dest::VIFH{S, Nv, Ni, Nh},   bc::DataLayouts.BroadcastedUnionVIFH{S, Nv, Ni, Nh}, ::ToCUDA) where {S, Nv, Ni, Nh} = cuda_copyto!(dest, bc)
-# Base.copyto!(dest::VIJFH{S, Nv, Nij, Nh}, bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, Nh}, ::ToCUDA) where {S, Nv, Nij, Nh} = cuda_copyto!(dest, bc)
-# Base.copyto!(dest::VF{S, Nv},             bc::DataLayouts.BroadcastedUnionVF{S, Nv}, ::ToCUDA) where {S, Nv} = cuda_copyto!(dest, bc)
-# Base.copyto!(dest::DataF{S},              bc::DataLayouts.BroadcastedUnionDataF{S}, ::ToCUDA) where {S} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::VIJFH{S, Nv, Nij, Nh}, bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, Nh}, ::ToCUDA) where {S, Nv, Nij, Nh} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::VF{S, Nv},             bc::DataLayouts.BroadcastedUnionVF{S, Nv}, ::ToCUDA) where {S, Nv} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::DataF{S},              bc::DataLayouts.BroadcastedUnionDataF{S}, ::ToCUDA) where {S} = cuda_copyto!(dest, bc)
 #! format: on
@@ -10,6 +10,11 @@ function knl_fill_flat!(dest::AbstractData, val, us)
     return nothing
 end
 
+function knl_fill_flat!(dest::DataF, val, us)
+    @inbounds dest[] = val
+    return nothing
+end
+
 function cuda_fill!(dest::AbstractData, val)
     (_, _, Nv, _, Nh) = DataLayouts.universal_size(dest)
     us = DataLayouts.UniversalSize(dest)
 
@@ -48,8 +48,9 @@ function dss_load_perimeter_data_kernel!(
     if gidx ≤ prod(sizep)
         (level, p, fidx, elem) = cart_ind(sizep, gidx).I
         (ip, jp) = perimeter[p]
-        data_idx = linear_ind(sized, (level, ip, jp, fidx, elem))
-        pperimeter_data[level, p, fidx, elem] = pdata[data_idx]
+        data_idx = linear_ind(sized, (level, ip, jp, elem))
+        pperimeter_data.arrays[fidx][level, p, elem] =
+            pdata.arrays[fidx][data_idx]
     end
     return nothing
 end
@@ -89,7 +90,8 @@ function dss_unload_perimeter_data_kernel!(
         (level, p, fidx, elem) = cart_ind(sizep, gidx).I
         (ip, jp) = perimeter[p]
         data_idx = linear_ind(sized, (level, ip, jp, fidx, elem))
-        pdata[data_idx] = pperimeter_data[level, p, fidx, elem]
+        pdata.arrays[fidx][data_idx] =
+            pperimeter_data.arrays[fidx][level, p, elem]
     end
     return nothing
 end
@@ -148,12 +150,12 @@ function dss_local_kernel!(
         for idx in st:(en - 1)
             (lidx, vert) = local_vertices[idx]
             ip = perimeter_vertex_node_index(vert)
-            sum_data += pperimeter_data[level, ip, fidx, lidx]
+            sum_data += pperimeter_data.arrays[fidx][level, ip, lidx]
         end
         for idx in st:(en - 1)
             (lidx, vert) = local_vertices[idx]
             ip = perimeter_vertex_node_index(vert)
-            pperimeter_data[level, ip, fidx, lidx] = sum_data
+            pperimeter_data.arrays[fidx][level, ip, lidx] = sum_data
         end
     elseif gidx ≤ nlevels * nfidx * (nlocalvertices + nlocalfaces) # interior faces
         nfacedof = div(nperimeter - 4, 4)
@@ -169,10 +171,10 @@ function dss_local_kernel!(
             ip1 = inc1 == 1 ? first1 + i - 1 : first1 - i + 1
             ip2 = inc2 == 1 ? first2 + i - 1 : first2 - i + 1
             val =
-                pperimeter_data[level, ip1, fidx, lidx1] +
-                pperimeter_data[level, ip2, fidx, lidx2]
-            pperimeter_data[level, ip1, fidx, lidx1] = val
-            pperimeter_data[level, ip2, fidx, lidx2] = val
+                pperimeter_data.arrays[fidx][level, ip1, lidx1] +
+                pperimeter_data.arrays[fidx][level, ip2, lidx2]
+            pperimeter_data.arrays[fidx][level, ip1, lidx1] = val
+            pperimeter_data.arrays[fidx][level, ip2, lidx2] = val
         end
     end
 
@@ -254,7 +256,7 @@ function dss_transform_kernel!(
     if gidx ≤ nlevels * nperimeter * nlocalelems
         sizet = (nlevels, nperimeter, nlocalelems)
         sizet_data = (nlevels, Nq, Nq, nfid, nelems)
-        sizet_wt = (Nq, Nq, 1, nelems)
+        sizet_wt = (Nq, Nq, nelems)
         sizet_metric = (nlevels, Nq, Nq, nmetric, nelems)
 
         (level, p, localelemno) = cart_ind(sizet, gidx).I
@@ -267,26 +269,28 @@ function dss_transform_kernel!(
             pperimeter_data[level, p, fidx, elem] = pdata[data_idx] * weight
         end
         for fidx in covariant12fidx
-            data_idx1 = linear_ind(sizet_data, (level, ip, jp, fidx, elem))
-            data_idx2 = linear_ind(sizet_data, (level, ip, jp, fidx + 1, elem))
-            (idx11, idx12, idx21, idx22) =
-                Topologies._get_idx_metric(sizet_metric, (level, ip, jp, elem))
+            data_idx = linear_ind(sizet_data, (level, ip, jp, elem))
+            (idx11, idx12, idx21, idx22) = (1, 2, 3, 4)
+            # Topologies._get_idx_metric(sizet_metric, (level, ip, jp, elem))
             pperimeter_data[level, p, fidx, elem] =
                 (
-                    p∂ξ∂x[idx11] * pdata[data_idx1] +
-                    p∂ξ∂x[idx12] * pdata[data_idx2]
+                    p∂ξ∂x.arrays[idx11][data_idx] *
+                    pdata.arrays[fidx][data_idx] +
+                    p∂ξ∂x.arrays[idx12][data_idx] *
+                    pdata.arrays[fidx + 1][data_idx]
                 ) * weight
             pperimeter_data[level, p, fidx + 1, elem] =
                 (
-                    p∂ξ∂x[idx21] * pdata[data_idx1] +
-                    p∂ξ∂x[idx22] * pdata[data_idx2]
+                    p∂ξ∂x.arrays[idx21][data_idx] *
+                    pdata.arrays[fidx][data_idx] +
+                    p∂ξ∂x.arrays[idx22][data_idx] *
+                    pdata.arrays[fidx + 1][data_idx]
                 ) * weight
         end
         for fidx in contravariant12fidx
-            data_idx1 = linear_ind(sizet_data, (level, ip, jp, fidx, elem))
-            data_idx2 = linear_ind(sizet_data, (level, ip, jp, fidx + 1, elem))
-            (idx11, idx12, idx21, idx22) =
-                Topologies._get_idx_metric(sizet_metric, (level, ip, jp, elem))
+            data_idx = linear_ind(sizet_data, (level, ip, jp, elem))
+            (idx11, idx12, idx21, idx22) = (1, 2, 3, 4)
+            # Topologies._get_idx_metric(sizet_metric, (level, ip, jp, elem))
             pperimeter_data[level, p, fidx, elem] =
                 (
                     p∂x∂ξ[idx11] * pdata[data_idx1] +
@@ -683,7 +687,8 @@ function load_from_recv_buffer_kernel!(
         lidx = recv_buf_idx[irecv, 1]
         ip = recv_buf_idx[irecv, 2]
         idx = level + ((fidx - 1) + (irecv - 1) * nfid) * nlevels
-        CUDA.@atomic pperimeter_data[level, ip, fidx, lidx] += recv_data[idx]
+        CUDA.@atomic pperimeter_data.arrays[fidx][level, ip, lidx] +=
+            recv_data[idx]
     end
     return nothing
 end