Merge pull request #1804 from CliMA/ck/test_copyto

charleskawczynski · web-flow · commit 5ea5fea6c895 · 2024-06-24T13:14:44.000-04:00
Add DataLayouts `copyto!` unit tests
diff --git a/.buildkite/pipeline.yml b/.buildkite/pipeline.yml
@@ -81,6 +81,10 @@ steps:
         key: unit_data_fill
         command: "julia --color=yes --check-bounds=yes --project=.buildkite test/DataLayouts/unit_fill.jl"
 
+      - label: "Unit: data_copyto"
+        key: unit_data_copyto
+        command: "julia --color=yes --check-bounds=yes --project=.buildkite test/DataLayouts/unit_copyto.jl"
+
       - label: "Unit: data_opt_similar"
         key: data_opt_similar
         command: "julia --color=yes --check-bounds=yes --project=.buildkite test/DataLayouts/opt_similar.jl"
@@ -125,6 +129,16 @@ steps:
         agents:
           slurm_gpus: 1
 
+      - label: "Unit: data copyto"
+        key: gpu_unit_data_copyto
+        command:
+          - "julia --project=.buildkite -e 'using CUDA; CUDA.versioninfo()'"
+          - "julia --color=yes --check-bounds=yes --project=.buildkite test/DataLayouts/unit_copyto.jl"
+        env:
+          CLIMACOMMS_DEVICE: "CUDA"
+        agents:
+          slurm_gpus: 1
+
   - group: "Unit: Geometry"
     steps:
 
diff --git a/ext/cuda/cuda_utils.jl b/ext/cuda/cuda_utils.jl
@@ -4,8 +4,7 @@ import ClimaCore.DataLayouts
 import ClimaCore.DataLayouts: empty_kernel_stats
 
 get_n_items(field::Fields.Field) = get_n_items(Fields.field_values(field))
-get_n_items(data::DataLayouts.AbstractData) =
-    get_n_items(DataLayouts.universal_size(data))
+get_n_items(data::DataLayouts.AbstractData) = get_n_items(size(data))
 get_n_items(arr::AbstractArray) = get_n_items(size(parent(arr)))
 get_n_items(tup::Tuple) = prod(tup)
 
diff --git a/ext/cuda/data_layouts.jl b/ext/cuda/data_layouts.jl
@@ -25,89 +25,8 @@ Base.similar(
     dims::Dims{N},
 ) where {T, N, B} = similar(CUDA.CuArray{T, N, B}, dims)
 
-function knl_copyto!(dest, src)
-
-    i = CUDA.threadIdx().x
-    j = CUDA.threadIdx().y
-
-    h = CUDA.blockIdx().x
-    v = CUDA.blockDim().z * (CUDA.blockIdx().y - 1) + CUDA.threadIdx().z
-
-    if v <= size(dest, 4)
-        I = CartesianIndex((i, j, 1, v, h))
-        @inbounds dest[I] = src[I]
-    end
-    return nothing
-end
-
-function Base.copyto!(
-    dest::IJFH{S, Nij},
-    bc::DataLayouts.BroadcastedUnionIJFH{S, Nij, A},
-) where {S, Nij, A <: CuArrayBackedTypes}
-    _, _, _, _, Nh = size(bc)
-    if Nh > 0
-        auto_launch!(
-            knl_copyto!,
-            (dest, bc),
-            dest;
-            threads_s = (Nij, Nij),
-            blocks_s = (Nh, 1),
-        )
-    end
-    return dest
-end
-
-function Base.copyto!(
-    dest::VIJFH{S, Nv, Nij},
-    bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, A},
-) where {S, Nv, Nij, A <: CuArrayBackedTypes}
-    _, _, _, _, Nh = size(bc)
-    if Nv > 0 && Nh > 0
-        Nv_per_block = min(Nv, fld(256, Nij * Nij))
-        Nv_blocks = cld(Nv, Nv_per_block)
-        auto_launch!(
-            knl_copyto!,
-            (dest, bc),
-            dest;
-            threads_s = (Nij, Nij, Nv_per_block),
-            blocks_s = (Nh, Nv_blocks),
-        )
-    end
-    return dest
-end
-
-function Base.copyto!(
-    dest::VF{S, Nv},
-    bc::DataLayouts.BroadcastedUnionVF{S, Nv, A},
-) where {S, Nv, A <: CuArrayBackedTypes}
-    _, _, _, _, Nh = size(dest)
-    if Nv > 0 && Nh > 0
-        auto_launch!(
-            knl_copyto!,
-            (dest, bc),
-            dest;
-            threads_s = (1, 1),
-            blocks_s = (Nh, Nv),
-        )
-    end
-    return dest
-end
-
-function Base.copyto!(
-    dest::DataF{S},
-    bc::DataLayouts.BroadcastedUnionDataF{S, A},
-) where {S, A <: CUDA.CuArray}
-    auto_launch!(
-        knl_copyto!,
-        (dest, bc),
-        dest;
-        threads_s = (1, 1),
-        blocks_s = (1, 1),
-    )
-    return dest
-end
-
-include("fill.jl")
+include("data_layouts_fill.jl")
+include("data_layouts_copyto.jl")
 
 Base.@propagate_inbounds function rcopyto_at!(
     pair::Pair{<:AbstractData, <:Any},
diff --git a/ext/cuda/data_layouts_copyto.jl b/ext/cuda/data_layouts_copyto.jl
@@ -0,0 +1,115 @@
+function knl_copyto!(dest, src)
+
+    i = CUDA.threadIdx().x
+    j = CUDA.threadIdx().y
+
+    h = CUDA.blockIdx().x
+    v = CUDA.blockDim().z * (CUDA.blockIdx().y - 1) + CUDA.threadIdx().z
+
+    if v <= size(dest, 4)
+        I = CartesianIndex((i, j, 1, v, h))
+        @inbounds dest[I] = src[I]
+    end
+    return nothing
+end
+
+function Base.copyto!(
+    dest::IJFH{S, Nij},
+    bc::DataLayouts.BroadcastedUnionIJFH{S, Nij, A},
+) where {S, Nij, A <: CuArrayBackedTypes}
+    _, _, _, _, Nh = size(bc)
+    if Nh > 0
+        auto_launch!(
+            knl_copyto!,
+            (dest, bc),
+            dest;
+            threads_s = (Nij, Nij),
+            blocks_s = (Nh, 1),
+        )
+    end
+    return dest
+end
+
+function Base.copyto!(
+    dest::VIJFH{S, Nv, Nij},
+    bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, A},
+) where {S, Nv, Nij, A <: CuArrayBackedTypes}
+    _, _, _, _, Nh = size(bc)
+    if Nv > 0 && Nh > 0
+        Nv_per_block = min(Nv, fld(256, Nij * Nij))
+        Nv_blocks = cld(Nv, Nv_per_block)
+        auto_launch!(
+            knl_copyto!,
+            (dest, bc),
+            dest;
+            threads_s = (Nij, Nij, Nv_per_block),
+            blocks_s = (Nh, Nv_blocks),
+        )
+    end
+    return dest
+end
+
+function Base.copyto!(
+    dest::VF{S, Nv},
+    bc::DataLayouts.BroadcastedUnionVF{S, Nv, A},
+) where {S, Nv, A <: CuArrayBackedTypes}
+    _, _, _, _, Nh = size(dest)
+    if Nv > 0 && Nh > 0
+        auto_launch!(
+            knl_copyto!,
+            (dest, bc),
+            dest;
+            threads_s = (1, 1),
+            blocks_s = (Nh, Nv),
+        )
+    end
+    return dest
+end
+
+function Base.copyto!(
+    dest::DataF{S},
+    bc::DataLayouts.BroadcastedUnionDataF{S, A},
+) where {S, A <: CUDA.CuArray}
+    auto_launch!(
+        knl_copyto!,
+        (dest, bc),
+        dest;
+        threads_s = (1, 1),
+        blocks_s = (1, 1),
+    )
+    return dest
+end
+
+import ClimaCore.DataLayouts: isascalar
+function knl_copyto_flat!(dest::AbstractData, bc)
+    @inbounds begin
+        n = size(dest)
+        tidx = thread_index()
+        if valid_range(tidx, prod(n))
+            I = kernel_indexes(tidx, n)
+            dest[I] = bc[I]
+        end
+    end
+    return nothing
+end
+
+function cuda_copyto!(dest::AbstractData, bc)
+    (_, _, Nf, Nv, Nh) = DataLayouts.universal_size(dest)
+    if Nv > 0 && Nh > 0 && Nf > 0
+        auto_launch!(knl_copyto_flat!, (dest, bc), dest; auto = true)
+    end
+    return dest
+end
+
+# TODO: can we use CUDA's luanch configuration for all data layouts?
+# Currently, it seems to have a slight performance degredation.
+#! format: off
+# Base.copyto!(dest::IJFH{S, Nij, <:CuArrayBackedTypes},      bc::DataLayouts.BroadcastedUnionIJFH{S, Nij, <:CuArrayBackedTypes}) where {S, Nij} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::IFH{S, Ni, <:CuArrayBackedTypes},        bc::DataLayouts.BroadcastedUnionIFH{S, Ni, <:CuArrayBackedTypes}) where {S, Ni} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::IJF{S, Nij, <:CuArrayBackedTypes},       bc::DataLayouts.BroadcastedUnionIJF{S, Nij, <:CuArrayBackedTypes}) where {S, Nij} = cuda_copyto!(dest, bc)
+Base.copyto!(dest::IF{S, Ni, <:CuArrayBackedTypes},         bc::DataLayouts.BroadcastedUnionIF{S, Ni, <:CuArrayBackedTypes}) where {S, Ni} = cuda_copyto!(dest, bc)
+# Base.copyto!(dest::VIFH{S, Nv, Ni, <:CuArrayBackedTypes},   bc::DataLayouts.BroadcastedUnionVIFH{S, Nv, Ni, <:CuArrayBackedTypes}) where {S, Nv, Ni} = cuda_copyto!(dest, bc)
+# Base.copyto!(dest::VIJFH{S, Nv, Nij, <:CuArrayBackedTypes}, bc::DataLayouts.BroadcastedUnionVIJFH{S, Nv, Nij, <:CuArrayBackedTypes}) where {S, Nv, Nij} = cuda_copyto!(dest, bc)
+# Base.copyto!(dest::VF{S, Nv, <:CuArrayBackedTypes},         bc::DataLayouts.BroadcastedUnionVF{S, Nv, <:CuArrayBackedTypes}) where {S, Nv} = cuda_copyto!(dest, bc)
+# Base.copyto!(dest::DataF{S, <:CuArrayBackedTypes},          bc::DataLayouts.BroadcastedUnionDataF{S, <:CuArrayBackedTypes}) where {S} = cuda_copyto!(dest, bc)
+#! format: on
diff --git a/ext/cuda/data_layouts_fill.jl b/ext/cuda/data_layouts_fill.jl
@@ -1,7 +1,7 @@
 function knl_fill_flat!(dest::AbstractData, val)
     @inbounds begin
         tidx = thread_index()
-        n = DataLayouts.universal_size(dest)
+        n = size(dest)
         if valid_range(tidx, prod(n))
             I = kernel_indexes(tidx, n)
             @inbounds dest[I] = val
diff --git a/src/DataLayouts/broadcast.jl b/src/DataLayouts/broadcast.jl
@@ -540,6 +540,17 @@ function Base.copyto!(
     return dest
 end
 
+function Base.copyto!(
+    dest::IF{S, Ni},
+    bc::BroadcastedUnionIF{S, Ni, A},
+) where {S, Ni, A}
+    @inbounds for i in 1:Ni
+        idx = CartesianIndex(i, 1, 1, 1, 1)
+        dest[idx] = convert(S, bc[idx])
+    end
+    return dest
+end
+
 # inline inner slab(::DataSlab1D) copy
 function Base.copyto!(
     dest::IF{S, Ni},
diff --git a/src/Geometry/globalgeometry.jl b/src/Geometry/globalgeometry.jl
@@ -62,6 +62,7 @@ LocalVector(u::CartesianVector{T,I}, ::CartesianGlobalGeometry) where {T,I} =
 =#
 
 abstract type AbstractSphericalGlobalGeometry <: AbstractGlobalGeometry end
+Base.broadcastable(x::AbstractSphericalGlobalGeometry) = tuple(x)
 
 """
     SphericalGlobalGeometry(radius)
diff --git a/test/DataLayouts/benchmark_fill.jl b/test/DataLayouts/benchmark_fill.jl
@@ -12,6 +12,10 @@ function benchmarkfill!(device, data, val)
     trial = @benchmark ClimaComms.@cuda_sync $device fill!($data, $val)
     show(stdout, MIME("text/plain"), trial)
     println()
+    trial =
+        @benchmark ClimaComms.@cuda_sync $device fill!($(parent(data)), $val)
+    show(stdout, MIME("text/plain"), trial)
+    println()
 end
 
 @testset "fill! with Nf = 1" begin
diff --git a/test/DataLayouts/unit_copyto.jl b/test/DataLayouts/unit_copyto.jl