GEMM combine MKL and SYCL into one kernel. plus some restyle. (#110)

shssf · web-flow · commit 4c996343237d · 2020-10-04T22:04:05.000-05:00
diff --git a/dpnp/backend/backend_iface.hpp b/dpnp/backend/backend_iface.hpp
@@ -93,6 +93,21 @@ INP_DLLEXPORT char* dpnp_memory_alloc_c(size_t size_in_bytes);
 INP_DLLEXPORT void dpnp_memory_free_c(void* ptr);
 void dpnp_memory_memcpy_c(void* dst, const void* src, size_t size_in_bytes);
 
+/**
+ * @ingroup BACKEND_API
+ * @brief Matrix multiplication.
+ *
+ * Matrix multiplication procedure. Works with 2-D matrices
+ *
+ * @param [in]  array1    Input array.
+ *
+ * @param [in]  array2    Input array.
+ *
+ * @param [out] result1   Output array.
+ *
+ * @param [in]  size      Number of elements in input arrays.
+ *
+ */
 template <typename _DataType>
 INP_DLLEXPORT void
     custom_blas_gemm_c(void* array1, void* array2, void* result1, size_t size_m, size_t size_n, size_t size_k);
@@ -388,15 +403,6 @@ template <typename _DataType, typename _ResultType>
 INP_DLLEXPORT void custom_var_c(
     void* array, void* result, const size_t* shape, size_t ndim, const size_t* axis, size_t naxis, size_t ddof);
 
-#if 0 // Example for OpenCL kernel
-template <typename _DataType>
-void custom_dgemm_c_opencl(void* array_1, void* array_2, void* result_1, size_t size);
-#endif
-
-template <typename _DataType>
-INP_DLLEXPORT void
-    dpnp_blas_gemm_c(void* array1, void* array2, void* result1, size_t size_m, size_t size_n, size_t size_k);
-
 /**
  * @ingroup BACKEND_API
  * @brief Element wise function __name__
diff --git a/dpnp/backend/backend_iface_fptr.cpp b/dpnp/backend/backend_iface_fptr.cpp
@@ -416,8 +416,8 @@ static func_map_t func_map_init()
 
     fmap[DPNPFuncName::DPNP_FN_MATMUL][eft_INT][eft_INT] = {eft_INT, (void*)custom_blas_gemm_c<int>};
     fmap[DPNPFuncName::DPNP_FN_MATMUL][eft_LNG][eft_LNG] = {eft_LNG, (void*)custom_blas_gemm_c<long>};
-    fmap[DPNPFuncName::DPNP_FN_MATMUL][eft_FLT][eft_FLT] = {eft_FLT, (void*)dpnp_blas_gemm_c<float>};
-    fmap[DPNPFuncName::DPNP_FN_MATMUL][eft_DBL][eft_DBL] = {eft_DBL, (void*)dpnp_blas_gemm_c<double>};
+    fmap[DPNPFuncName::DPNP_FN_MATMUL][eft_FLT][eft_FLT] = {eft_FLT, (void*)custom_blas_gemm_c<float>};
+    fmap[DPNPFuncName::DPNP_FN_MATMUL][eft_DBL][eft_DBL] = {eft_DBL, (void*)custom_blas_gemm_c<double>};
 
     fmap[DPNPFuncName::DPNP_FN_MAX][eft_INT][eft_INT] = {eft_INT, (void*)custom_max_c<int>};
     fmap[DPNPFuncName::DPNP_FN_MAX][eft_LNG][eft_LNG] = {eft_LNG, (void*)custom_max_c<long>};
diff --git a/dpnp/backend/custom_kernels.cpp b/dpnp/backend/custom_kernels.cpp
@@ -26,12 +26,15 @@
 #include <cmath>
 #include <iostream>
 #include <mkl_blas_sycl.hpp>
+#include <type_traits>
 
 #include <backend_iface.hpp>
 #include "backend_pstl.hpp"
 #include "backend_utils.hpp"
 #include "queue_sycl.hpp"
 
+namespace mkl_blas = oneapi::mkl::blas;
+
 template <typename _KernelNameSpecialization>
 class custom_blas_gemm_c_kernel;
 
@@ -43,43 +46,78 @@ void custom_blas_gemm_c(void* array1_in, void* array2_in, void* result1, size_t
     _DataType* array_2 = reinterpret_cast<_DataType*>(array2_in);
     _DataType* result = reinterpret_cast<_DataType*>(result1);
 
-    // input1: M x K
-    // input2: K x N
-    // result: M x N
-    const size_t dim_m = size_m; // shape1.front(); // First dimensions of array1
-    const size_t dim_n = size_n; // shape2.back();  // Last dimensions of array2
-    const size_t dim_k = size_k; // shape1.back(); // First dimensions of array2
-
-    cl::sycl::range<2> gws(dim_m, dim_n); // dimensions are: "i" and "j"
-    event = DPNP_QUEUE.submit([&](cl::sycl::handler& cgh) {
-            cgh.parallel_for<class custom_blas_gemm_c_kernel<_DataType> >(
-                gws,
-                [=](cl::sycl::id<2> global_id)
+    if (!size_m || !size_n || !size_k)
+    {
+        return;
+    }
+
+    if constexpr (std::is_same<_DataType, double>::value || std::is_same<_DataType, float>::value)
+    {
+        // using std::max for these ldx variables is required by MKL
+        const std::int64_t lda = std::max<size_t>(1UL, size_k); // First dimensions of array_1
+        const std::int64_t ldb = std::max<size_t>(1UL, size_n); // First dimensions of array_2
+        const std::int64_t ldc = std::max<size_t>(1UL, size_n); // Fast dimensions of result
+
+        event = mkl_blas::gemm(DPNP_QUEUE,
+                               oneapi::mkl::transpose::nontrans,
+                               oneapi::mkl::transpose::nontrans,
+                               size_n,
+                               size_m,
+                               size_k,
+                               _DataType(1),
+                               array_2,
+                               ldb,
+                               array_1,
+                               lda,
+                               _DataType(0),
+                               result,
+                               ldc);
+    }
+    else
+    {
+        // input1: M x K
+        // input2: K x N
+        // result: M x N
+        const size_t dim_m = size_m; // shape1.front(); // First dimensions of array1
+        const size_t dim_n = size_n; // shape2.back();  // Last dimensions of array2
+        const size_t dim_k = size_k; // shape1.back(); // First dimensions of array2
+
+        cl::sycl::range<2> gws(dim_m, dim_n); // dimensions are: "i" and "j"
+
+        auto kernel_parallel_for_func = [=](cl::sycl::id<2> global_id) {
+            size_t i = global_id[0]; //for (size_t i = 0; i < size; ++i)
             {
-                size_t i = global_id[0]; //for (size_t i = 0; i < size; ++i)
+                size_t j = global_id[1]; //for (size_t j = 0; j < size; ++j)
                 {
-                    size_t j = global_id[1]; //for (size_t j = 0; j < size; ++j)
+                    _DataType acc = _DataType(0);
+                    for (size_t k = 0; k < dim_k; ++k)
                     {
-                        _DataType acc = _DataType(0);
-                        for (size_t k = 0; k < dim_k; ++k)
-                        {
-                            const size_t index_1 = i * dim_k + k;
-                            const size_t index_2 = k * dim_n + j;
-                            acc += array_1[index_1] * array_2[index_2];
-                        }
-                        const size_t index_result = i * dim_n + j;
-                        result[index_result] = acc;
+                        const size_t index_1 = i * dim_k + k;
+                        const size_t index_2 = k * dim_n + j;
+                        acc += array_1[index_1] * array_2[index_2];
                     }
+                    const size_t index_result = i * dim_n + j;
+                    result[index_result] = acc;
                 }
-            }); // parallel_for
-    });         // queue.submit
+            }
+        };
+
+        auto kernel_func = [&](cl::sycl::handler& cgh) {
+            cgh.parallel_for<class custom_blas_gemm_c_kernel<_DataType>>(gws, kernel_parallel_for_func);
+        };
 
+        event = DPNP_QUEUE.submit(kernel_func);
+    }
     event.wait();
 }
 
+template void custom_blas_gemm_c<int>(
+    void* array1_in, void* array2_in, void* result1, size_t size_m, size_t size_n, size_t size_k);
 template void custom_blas_gemm_c<long>(
     void* array1_in, void* array2_in, void* result1, size_t size_m, size_t size_n, size_t size_k);
-template void custom_blas_gemm_c<int>(
+template void custom_blas_gemm_c<float>(
+    void* array1_in, void* array2_in, void* result1, size_t size_m, size_t size_n, size_t size_k);
+template void custom_blas_gemm_c<double>(
     void* array1_in, void* array2_in, void* result1, size_t size_m, size_t size_n, size_t size_k);
 
 template <typename _KernelNameSpecialization>
diff --git a/dpnp/backend/mkl_wrap_blas3.cpp b/dpnp/backend/mkl_wrap_blas3.cpp
diff --git a/setup.py b/setup.py
@@ -205,8 +205,9 @@
 if _mkl_root is None:
     raise EnvironmentError("Intel NumPy: Please install Intel OneAPI environment. MKLROOT is empty")
 _mkl_include = [os.path.join(_mkl_root, 'include')]
-_mkl_libs = ["mkl_rt", "mkl_sycl", "mkl_intel_ilp64", "mkl_sequential", "mkl_core", "sycl", "OpenCL", "pthread", "m", "dl"]
-_project_cmplr_macro += [("MKL_ILP64", "1")] # using 64bit integers in MKL interface (long) 
+_mkl_libs = ["mkl_rt", "mkl_sycl", "mkl_intel_ilp64", "mkl_sequential",
+             "mkl_core", "sycl", "OpenCL", "pthread", "m", "dl"]
+_project_cmplr_macro += [("MKL_ILP64", "1")]  # using 64bit integers in MKL interface (long)
 
 _mkl_libpath = [os.path.join(_mkl_root, 'lib', 'intel64')]
 if IS_LIN:
@@ -272,7 +273,6 @@
                 "dpnp/backend/custom_kernels_statistics.cpp",
                 "dpnp/backend/memory_sycl.cpp",
                 "dpnp/backend/mkl_wrap_blas1.cpp",
-                "dpnp/backend/mkl_wrap_blas3.cpp",
                 "dpnp/backend/mkl_wrap_lapack.cpp",
                 "dpnp/backend/mkl_wrap_rng.cpp",
                 "dpnp/backend/queue_sycl.cpp"