[CUBLAS] Interface gemm_grouped_batched (#2310)

amontoison · web-flow · commit 7f725c0a117c · 2024-04-02T16:20:55.000+02:00
Only on CUDA 12.4+
diff --git a/lib/cublas/libcublas.jl b/lib/cublas/libcublas.jl
@@ -4657,19 +4657,19 @@ end
     @gcsafe_ccall libcublas.cublasSgemmGroupedBatched(handle::cublasHandle_t,
                                                       transa_array::Ptr{cublasOperation_t},
                                                       transb_array::Ptr{cublasOperation_t},
-                                                      m_array::CuPtr{Cint},
-                                                      n_array::CuPtr{Cint},
-                                                      k_array::CuPtr{Cint},
-                                                      alpha_array::CuPtr{Float32},
+                                                      m_array::Ptr{Cint},
+                                                      n_array::Ptr{Cint},
+                                                      k_array::Ptr{Cint},
+                                                      alpha_array::Ptr{Float32},
                                                       Aarray::CuPtr{Ptr{Float32}},
-                                                      lda_array::CuPtr{Cint},
+                                                      lda_array::Ptr{Cint},
                                                       Barray::CuPtr{Ptr{Float32}},
-                                                      ldb_array::CuPtr{Cint},
-                                                      beta_array::CuPtr{Float32},
+                                                      ldb_array::Ptr{Cint},
+                                                      beta_array::Ptr{Float32},
                                                       Carray::CuPtr{Ptr{Float32}},
-                                                      ldc_array::CuPtr{Cint},
+                                                      ldc_array::Ptr{Cint},
                                                       group_count::Cint,
-                                                      group_size::CuPtr{Cint})::cublasStatus_t
+                                                      group_size::Ptr{Cint})::cublasStatus_t
 end
 
 @checked function cublasSgemmGroupedBatched_64(handle, transa_array, transb_array, m_array,
@@ -4680,19 +4680,19 @@ end
     @gcsafe_ccall libcublas.cublasSgemmGroupedBatched_64(handle::cublasHandle_t,
                                                          transa_array::Ptr{cublasOperation_t},
                                                          transb_array::Ptr{cublasOperation_t},
-                                                         m_array::CuPtr{Int64},
-                                                         n_array::CuPtr{Int64},
-                                                         k_array::CuPtr{Int64},
-                                                         alpha_array::CuPtr{Float32},
+                                                         m_array::Ptr{Int64},
+                                                         n_array::Ptr{Int64},
+                                                         k_array::Ptr{Int64},
+                                                         alpha_array::Ptr{Float32},
                                                          Aarray::CuPtr{Ptr{Float32}},
-                                                         lda_array::CuPtr{Int64},
+                                                         lda_array::Ptr{Int64},
                                                          Barray::CuPtr{Ptr{Float32}},
-                                                         ldb_array::CuPtr{Int64},
-                                                         beta_array::CuPtr{Float32},
+                                                         ldb_array::Ptr{Int64},
+                                                         beta_array::Ptr{Float32},
                                                          Carray::CuPtr{Ptr{Float32}},
-                                                         ldc_array::CuPtr{Int64},
+                                                         ldc_array::Ptr{Int64},
                                                          group_count::Int64,
-                                                         group_size::CuPtr{Int64})::cublasStatus_t
+                                                         group_size::Ptr{Int64})::cublasStatus_t
 end
 
 @checked function cublasDgemmGroupedBatched(handle, transa_array, transb_array, m_array,
@@ -4703,19 +4703,19 @@ end
     @gcsafe_ccall libcublas.cublasDgemmGroupedBatched(handle::cublasHandle_t,
                                                       transa_array::Ptr{cublasOperation_t},
                                                       transb_array::Ptr{cublasOperation_t},
-                                                      m_array::CuPtr{Cint},
-                                                      n_array::CuPtr{Cint},
-                                                      k_array::CuPtr{Cint},
-                                                      alpha_array::CuPtr{Float64},
+                                                      m_array::Ptr{Cint},
+                                                      n_array::Ptr{Cint},
+                                                      k_array::Ptr{Cint},
+                                                      alpha_array::Ptr{Float64},
                                                       Aarray::CuPtr{Ptr{Float64}},
-                                                      lda_array::CuPtr{Cint},
+                                                      lda_array::Ptr{Cint},
                                                       Barray::CuPtr{Ptr{Float64}},
-                                                      ldb_array::CuPtr{Cint},
-                                                      beta_array::CuPtr{Float64},
+                                                      ldb_array::Ptr{Cint},
+                                                      beta_array::Ptr{Float64},
                                                       Carray::CuPtr{Ptr{Float64}},
-                                                      ldc_array::CuPtr{Cint},
+                                                      ldc_array::Ptr{Cint},
                                                       group_count::Cint,
-                                                      group_size::CuPtr{Cint})::cublasStatus_t
+                                                      group_size::Ptr{Cint})::cublasStatus_t
 end
 
 @checked function cublasDgemmGroupedBatched_64(handle, transa_array, transb_array, m_array,
@@ -4726,19 +4726,19 @@ end
     @gcsafe_ccall libcublas.cublasDgemmGroupedBatched_64(handle::cublasHandle_t,
                                                          transa_array::Ptr{cublasOperation_t},
                                                          transb_array::Ptr{cublasOperation_t},
-                                                         m_array::CuPtr{Int64},
-                                                         n_array::CuPtr{Int64},
-                                                         k_array::CuPtr{Int64},
-                                                         alpha_array::CuPtr{Float64},
+                                                         m_array::Ptr{Int64},
+                                                         n_array::Ptr{Int64},
+                                                         k_array::Ptr{Int64},
+                                                         alpha_array::Ptr{Float64},
                                                          Aarray::CuPtr{Ptr{Float64}},
-                                                         lda_array::CuPtr{Int64},
+                                                         lda_array::Ptr{Int64},
                                                          Barray::CuPtr{Ptr{Float64}},
-                                                         ldb_array::CuPtr{Int64},
-                                                         beta_array::CuPtr{Float64},
+                                                         ldb_array::Ptr{Int64},
+                                                         beta_array::Ptr{Float64},
                                                          Carray::CuPtr{Ptr{Float64}},
-                                                         ldc_array::CuPtr{Int64},
+                                                         ldc_array::Ptr{Int64},
                                                          group_count::Int64,
-                                                         group_size::CuPtr{Int64})::cublasStatus_t
+                                                         group_size::Ptr{Int64})::cublasStatus_t
 end
 
 @checked function cublasSgeam(handle, transa, transb, m, n, alpha, A, lda, beta, B, ldb, C,
diff --git a/lib/cublas/wrappers.jl b/lib/cublas/wrappers.jl
@@ -1211,6 +1211,73 @@ end
     return CuArray(ptrs)
 end
 
+## (GE) general matrix-matrix multiplication grouped batched
+for (fname, fname_64, elty) in ((:cublasSgemmGroupedBatched, :cublasSgemmGroupedBatched_64, :Float32),
+                                (:cublasDgemmGroupedBatched, :cublasDgemmGroupedBatched_64, :Float64))
+    @eval begin
+        function gemm_grouped_batched!(transA::Vector{Char},
+                                       transB::Vector{Char},
+                                       alpha::Vector{$elty},
+                                       A::Vector{<:StridedCuMatrix{$elty}},
+                                       B::Vector{<:StridedCuMatrix{$elty}},
+                                       beta::Vector{$elty},
+                                       C::Vector{<:StridedCuMatrix{$elty}})
+            if length(A) != length(B) || length(A) != length(C)
+                throw(DimensionMismatch("A, B and C must contain the same number of matrices"))
+            end
+
+            group_count = length(A)
+            group_size = ones(Int64, group_count)
+
+            for i = 1:group_count
+                m = size(A[i], transA[i] == 'N' ? 1 : 2)
+                k = size(A[i], transA[i] == 'N' ? 2 : 1)
+                n = size(B[i], transB[i] == 'N' ? 2 : 1)
+                if m != size(C[i],1) || n != size(C[i],2) || k != size(B[i], transB[i] == 'N' ? 1 : 2)
+                    throw(DimensionMismatch(""))
+                end
+            end
+
+            transa = convert.(cublasOperation_t, transA)
+            transb = convert.(cublasOperation_t, transB)
+            m = [size(A[i], transA[i] == 'N' ? 1 : 2) for i = 1 : group_count]
+            k = [size(A[i], transA[i] == 'N' ? 2 : 1) for i = 1 : group_count]
+            n = [size(B[i], transB[i] == 'N' ? 2 : 1) for i = 1 : group_count]
+            lda = [max(1,stride(A[i],2)) for i = 1 : group_count]
+            ldb = [max(1,stride(B[i],2)) for i = 1 : group_count]
+            ldc = [max(1,stride(C[i],2)) for i = 1 : group_count]
+            Aptrs = unsafe_batch(A)
+            Bptrs = unsafe_batch(B)
+            Cptrs = unsafe_batch(C)
+
+            if CUBLAS.version() >= v"12.0"
+                $fname_64(handle(), transa, transb, m, n, k, alpha, Aptrs, lda,
+                          Bptrs, ldb, beta, Cptrs, ldc, group_count, group_size)
+            else
+                $fname(handle(), transa, transb, m, n, k, alpha, Aptrs, lda,
+                          Bptrs, ldb, beta, Cptrs, ldc, group_count, group_size)
+            end
+            unsafe_free!(Cptrs)
+            unsafe_free!(Bptrs)
+            unsafe_free!(Aptrs)
+
+            C
+        end
+    end
+end
+
+function gemm_grouped_batched(transA::Vector{Char}, transB::Vector{Char}, alpha::Vector{T},
+                              A::Vector{<:StridedCuMatrix{T}}, B::Vector{<:StridedCuMatrix{T}}) where T
+    beta = [zero(T) for i = 1:length(transA)]
+    C = CuMatrix{T}[similar(B[i], (size(A[i], transA[i] == 'N' ? 1 : 2), size(B[i], transB[i] == 'N' ? 2 : 1))) for i in 1:length(A)]
+    gemm_grouped_batched!(transA, transB, alpha, A, B, beta, C)
+end
+function gemm_grouped_batched(transA::Vector{Char}, transB::Vector{Char},
+                              A::Vector{<:StridedCuMatrix{T}}, B::Vector{<:StridedCuMatrix{T}}) where T
+    alpha = [one(T) for i = 1:length(transA)]
+    gemm_grouped_batched(transA, transB, alpha, A, B)
+end
+
 ## (GE) general matrix-matrix multiplication batched
 for (fname, fname_64, elty) in ((:cublasDgemmBatched, :cublasDgemmBatched_64, :Float64),
                                 (:cublasSgemmBatched, :cublasSgemmBatched_64, :Float32),
diff --git a/res/wrap/cublas.toml b/res/wrap/cublas.toml
@@ -1773,29 +1773,11 @@ needs_context = false
 2 = "CuPtr{Cvoid}"
 
 [api.cublasSgemmGroupedBatched.argtypes]
-4 = "CuPtr{Cint}"
-5 = "CuPtr{Cint}"
-6 = "CuPtr{Cint}"
-7 = "CuPtr{Float32}"
 8 = "CuPtr{Ptr{Float32}}"
-9 = "CuPtr{Cint}"
 10 = "CuPtr{Ptr{Float32}}"
-11 = "CuPtr{Cint}"
-12 = "CuPtr{Float32}"
 13 = "CuPtr{Ptr{Float32}}"
-14 = "CuPtr{Cint}"
-16 = "CuPtr{Cint}"
 
 [api.cublasDgemmGroupedBatched.argtypes]
-4 = "CuPtr{Cint}"
-5 = "CuPtr{Cint}"
-6 = "CuPtr{Cint}"
-7 = "CuPtr{Float64}"
 8 = "CuPtr{Ptr{Float64}}"
-9 = "CuPtr{Cint}"
 10 = "CuPtr{Ptr{Float64}}"
-11 = "CuPtr{Cint}"
-12 = "CuPtr{Float64}"
 13 = "CuPtr{Ptr{Float64}}"
-14 = "CuPtr{Cint}"
-16 = "CuPtr{Cint}"
diff --git a/test/libraries/cublas.jl b/test/libraries/cublas.jl
@@ -1597,7 +1597,7 @@ end
         end
     end
 
-    @testset for elty in [Float16, Float32, Float64, ComplexF32, ComplexF64]
+    @testset "elty = $elty" for elty in [Float16, Float32, Float64, ComplexF32, ComplexF64]
         elty == Float16 && capability(device()) < v"5.3" && continue
 
         alpha = rand(elty)
@@ -1711,6 +1711,48 @@ end
         end
     end
 
+    if CUDA.CUBLAS.version() >= v"12.4.2"
+        @testset "elty = $elty" for elty in [Float32, Float64]
+
+            transA = ['N' for i in 1:10]
+            transB = ['N' for i in 1:10]
+            alpha = rand(elty, 10)
+            beta = rand(elty, 10)
+            # generate matrices
+            bA = [rand(elty,3*i,2*i) for i in 1:10]
+            bB = [rand(elty,2*i,5*i) for i in 1:10]
+            bC = [rand(elty,3*i,5*i) for i in 1:10]
+            # move to device
+            bd_A = CuArray{elty, 2}[]
+            bd_B = CuArray{elty, 2}[]
+            bd_C = CuArray{elty, 2}[]
+            for i in 1:length(bA)
+                push!(bd_A,CuArray(bA[i]))
+                push!(bd_B,CuArray(bB[i]))
+                push!(bd_C,CuArray(bC[i]))
+            end
+
+            @testset "gemm_grouped_batched!" begin
+                # C = (alpha*A)*B + beta*C
+                CUBLAS.gemm_grouped_batched!(transA,transB,alpha,bd_A,bd_B,beta,bd_C)
+                for i in 1:length(bd_C)
+                    bC[i] = alpha[i] * bA[i] * bB[i] + beta[i] * bC[i]
+                    h_C = Array(bd_C[i])
+                    @test bC[i] ≈ h_C
+                end
+            end
+
+            @testset "gemm_grouped_batched" begin
+                bd_C = CUBLAS.gemm_grouped_batched(transA,transB,bd_A,bd_B)
+                for i in 1:length(bd_C)
+                    bC[i] = bA[i] * bB[i]
+                    h_C = Array(bd_C[i])
+                    @test bC[i] ≈ h_C
+                end
+            end
+        end
+    end
+
     @testset "mixed-precision matmul" begin
         m,k,n = 4,4,4
         cudaTypes = (Float16, Complex{Float16}, BFloat16, Complex{BFloat16}, Float32, Complex{Float32},