new GPUArrays interface for KA transition

leios · leios · commit 49a3e07a76e9 · 2024-04-04T13:06:24.000-04:00
diff --git a/src/gpuarrays.jl b/src/gpuarrays.jl
@@ -1,5 +1,7 @@
 # GPUArrays.jl interface
 
+import KernelAbstractions
+import KernelAbstractions: Backend
 
 #
 # Device functionality
@@ -8,9 +10,7 @@
 
 ## execution
 
-struct CuArrayBackend <: AbstractGPUBackend end
-
-struct CuKernelContext <: AbstractKernelContext end
+struct CuArrayBackend <: Backend end
 
 @inline function GPUArrays.launch_heuristic(::CuArrayBackend, f::F, args::Vararg{Any,N};
                                             elements::Int, elements_per_thread::Int) where {F,N}
@@ -24,39 +24,3 @@ struct CuKernelContext <: AbstractKernelContext end
         launch_configuration(kernel.fun; max_threads=256)
     end
 end
-
-@inline function GPUArrays.gpu_call(::CuArrayBackend, f::F, args::TT, threads::Int,
-                                    blocks::Int; name::Union{String,Nothing}) where {F,TT}
-    @cuda threads blocks name f(CuKernelContext(), args...)
-end
-
-
-## on-device
-
-# indexing
-
-GPUArrays.blockidx(ctx::CuKernelContext) = blockIdx().x
-GPUArrays.blockdim(ctx::CuKernelContext) = blockDim().x
-GPUArrays.threadidx(ctx::CuKernelContext) = threadIdx().x
-GPUArrays.griddim(ctx::CuKernelContext) = gridDim().x
-
-# memory
-
-@inline function GPUArrays.LocalMemory(::CuKernelContext, ::Type{T}, ::Val{dims}, ::Val{id}
-                                      ) where {T, dims, id}
-    ptr = CUDA._shmem(Val(id), T, Val(prod(dims)))
-    ptr = reinterpret(LLVMPtr{T, AS.Shared}, ptr)
-    CuDeviceArray{T,length(dims),AS.Shared}(ptr, dims)
-end
-
-# synchronization
-
-@inline GPUArrays.synchronize_threads(::CuKernelContext) = sync_threads()
-
-
-
-#
-# Host abstractions
-#
-
-GPUArrays.backend(::Type{<:CuArray}) = CuArrayBackend()