[SYCLomatic] Add a rule to migrate CUDAGuard declaration (#2869)

zhiweij1 · web-flow · commit 2ab702bef367 · 2025-06-11T09:25:51.000+08:00
Signed-off-by: Jiang, Zhiwei &lt;zhiwei.jiang@intel.com&gt;
diff --git a/clang/lib/DPCT/RuleInfra/ExprAnalysis.cpp b/clang/lib/DPCT/RuleInfra/ExprAnalysis.cpp
@@ -1243,6 +1243,9 @@ void ExprAnalysis::analyzeType(TypeLoc TL, const Expr *CSCE,
   if (Iter != MapNames::TypeNamesMap.end()) {
     HelperFeatureSet.insert(Iter->second->RequestFeature);
     requestHelperFeatureForTypeNames(TyName);
+    for (const auto &Include : Iter->second->Includes) {
+      DpctGlobalInfo::getInstance().insertHeader(SR.getBegin(), Include);
+    }
   } else {
     Iter = MapNamesDNN::CuDNNTypeNamesMap.find(TyName);
     if (Iter != MapNamesDNN::CuDNNTypeNamesMap.end()) {
diff --git a/clang/test/dpct/pytorch/ATen.cu b/clang/test/dpct/pytorch/ATen.cu
@@ -1,83 +1,89 @@
-// RUN: rm -rf %T/pytorch/ATen
-// RUN: mkdir -p %T/pytorch/ATen/src
-// RUN: cp %S/ATen.cu %T/pytorch/ATen/src/
-// RUN: cp -r %S/pytorch_inc %T/pytorch/ATen/
-// RUN: cd %T/pytorch/ATen
-// RUN: mkdir dpct_out
-// RUN: dpct --format-range=none --out-root dpct_out %T/pytorch/ATen/src/ATen.cu --extra-arg="-I%T/pytorch/ATen/pytorch_inc" --cuda-include-path="%cuda-path/include" --rule-file=%S/../../../tools/dpct/extensions/pytorch_api_rules/pytorch_api.yaml --analysis-scope-path %T/pytorch/ATen/pytorch_inc --analysis-scope-path %T/pytorch/ATen/src --in-root %T/pytorch/ATen/src
-// RUN: FileCheck --input-file %T/pytorch/ATen/dpct_out/ATen.dp.cpp --match-full-lines %T/pytorch/ATen/src/ATen.cu
-
-// CHECK: #include <c10/xpu/XPUStream.h>
-#include <iostream>
-// CHECK: #include <ATen/xpu/XPUContext.h>
-#include <ATen/cuda/CUDAContext.h>
-// CHECK: #include <ATen/core/Tensor.h>
-#include <ATen/core/Tensor.h>
-
-// CHECK: #include <ATen/Tensor.h>
-// CHECK-NEXT: #include <c10/util/Half.h>
-#include <ATen/cuda/CUDATensorMethods.cuh>
-
-// CHECK: // BEGIN_1
-// CHECK-EMPTY:
-// CHECK-EMPTY:
-// CHECK-NEXT: // END_1
-// BEGIN_1
-#include <ATen/cuda/Exceptions.h>
-#include <THC/THCAtomics.cuh>
-// END_1
-
-// CHECK: #include <c10/xpu/XPUMacros.h>
-#include <c10/cuda/CUDAMacros.h>
-
-#define AT_CUDA_CHECK(stmt)  (stmt)
-
-// CHECK: #define BE_AT_CHECK
-#define BE_AT_CHECK AT_CUDA_CHECK
-
-
-__global__ void kernel() {}
-
-void test_CUDAStream_as_arg() {
-  dim3 gridSize(2, 2, 1);
-  dim3 blockSize(8, 8, 1);
-  void *args[] = {nullptr}; 
-
-  // CHECK: ([&](){
-  // CHECK-NEXT:   ((sycl::queue*)(c10::xpu::getCurrentXPUStream()))->parallel_for(
-  // CHECK-NEXT:     sycl::nd_range<3>(gridSize * blockSize, blockSize), 
-  // CHECK-NEXT:     [=](sycl::nd_item<3> item_ct1) {
-  // CHECK-NEXT:       kernel();
-  // CHECK-NEXT:     });
-  // CHECK-NEXT:   return 0;
-  // CHECK-NEXT: }());
-  AT_CUDA_CHECK(cudaLaunchKernel((const void *)kernel, gridSize, blockSize, args, 0, at::cuda::getCurrentCUDAStream()));
-}
-
-int main() {
-  // CHECK: dpct::queue_ptr st = &c10::xpu::getCurrentXPUStream().queue();
-  cudaStream_t st = 0;
-
-  // stream APIs
-  at::DeviceIndex devInd = 1;
-
-  // CHECK: auto currentStream = c10::xpu::getCurrentXPUStream();
-  auto currentStream = at::cuda::getCurrentCUDAStream();
-  // CHECK: auto deviceStream = c10::xpu::getCurrentXPUStream(devInd);
-  auto deviceStream = at::cuda::getCurrentCUDAStream(devInd);
-
-  // CHECK: dpct::queue_ptr curr_cuda_st = &(c10::xpu::getCurrentXPUStream(). queue());
-  cudaStream_t curr_cuda_st = at::cuda::getCurrentCUDAStream().stream();
-  // CHECK: dpct::queue_ptr dev_cuda_st = &(c10::xpu::getCurrentXPUStream(devInd). queue());
-  cudaStream_t dev_cuda_st = at::cuda::getCurrentCUDAStream(devInd).stream();
-
-  test_CUDAStream_as_arg();
-
-  return 0;
-}
-
-// CHECK: void foo2(c10::DeviceGuard device_guard, float *f)  try {
-// CHECK-NEXT: (DPCT_CHECK_ERROR(f = (float *)sycl::malloc_device(4, c10::xpu::getCurrentXPUStream().queue())));
-void foo2(at::cuda::CUDAGuard device_guard, float *f) {
-  C10_CUDA_CHECK(cudaMalloc(&f, 4));
-}
+// RUN: rm -rf %T/pytorch/ATen
+// RUN: mkdir -p %T/pytorch/ATen/src
+// RUN: cp %S/ATen.cu %T/pytorch/ATen/src/
+// RUN: cp -r %S/pytorch_inc %T/pytorch/ATen/
+// RUN: cd %T/pytorch/ATen
+// RUN: mkdir dpct_out
+// RUN: dpct --format-range=none --out-root dpct_out %T/pytorch/ATen/src/ATen.cu --extra-arg="-I%T/pytorch/ATen/pytorch_inc" --cuda-include-path="%cuda-path/include" --rule-file=%S/../../../tools/dpct/extensions/pytorch_api_rules/pytorch_api.yaml --analysis-scope-path %T/pytorch/ATen/pytorch_inc --analysis-scope-path %T/pytorch/ATen/src --in-root %T/pytorch/ATen/src
+// RUN: FileCheck --input-file %T/pytorch/ATen/dpct_out/ATen.dp.cpp --match-full-lines %T/pytorch/ATen/src/ATen.cu
+
+// CHECK: #include <c10/xpu/XPUStream.h>
+#include <iostream>
+// CHECK: #include <ATen/xpu/XPUContext.h>
+#include <ATen/cuda/CUDAContext.h>
+// CHECK: #include <ATen/core/Tensor.h>
+#include <ATen/core/Tensor.h>
+
+// CHECK: #include <ATen/Tensor.h>
+// CHECK-NEXT: #include <c10/util/Half.h>
+#include <ATen/cuda/CUDATensorMethods.cuh>
+
+// CHECK: // BEGIN_1
+// CHECK-EMPTY:
+// CHECK-EMPTY:
+// CHECK-NEXT: // END_1
+// BEGIN_1
+#include <ATen/cuda/Exceptions.h>
+#include <THC/THCAtomics.cuh>
+// END_1
+
+// CHECK: #include <c10/xpu/XPUMacros.h>
+// CHECK: #include <c10/core/DeviceGuard.h>
+#include <c10/cuda/CUDAMacros.h>
+
+#define AT_CUDA_CHECK(stmt)  (stmt)
+
+// CHECK: #define BE_AT_CHECK
+#define BE_AT_CHECK AT_CUDA_CHECK
+
+
+__global__ void kernel() {}
+
+void test_CUDAStream_as_arg() {
+  dim3 gridSize(2, 2, 1);
+  dim3 blockSize(8, 8, 1);
+  void *args[] = {nullptr}; 
+
+  // CHECK: ([&](){
+  // CHECK-NEXT:   ((sycl::queue*)(c10::xpu::getCurrentXPUStream()))->parallel_for(
+  // CHECK-NEXT:     sycl::nd_range<3>(gridSize * blockSize, blockSize), 
+  // CHECK-NEXT:     [=](sycl::nd_item<3> item_ct1) {
+  // CHECK-NEXT:       kernel();
+  // CHECK-NEXT:     });
+  // CHECK-NEXT:   return 0;
+  // CHECK-NEXT: }());
+  AT_CUDA_CHECK(cudaLaunchKernel((const void *)kernel, gridSize, blockSize, args, 0, at::cuda::getCurrentCUDAStream()));
+}
+
+int main() {
+  // CHECK: dpct::queue_ptr st = &c10::xpu::getCurrentXPUStream().queue();
+  cudaStream_t st = 0;
+
+  // stream APIs
+  at::DeviceIndex devInd = 1;
+
+  // CHECK: auto currentStream = c10::xpu::getCurrentXPUStream();
+  auto currentStream = at::cuda::getCurrentCUDAStream();
+  // CHECK: auto deviceStream = c10::xpu::getCurrentXPUStream(devInd);
+  auto deviceStream = at::cuda::getCurrentCUDAStream(devInd);
+
+  // CHECK: dpct::queue_ptr curr_cuda_st = &(c10::xpu::getCurrentXPUStream(). queue());
+  cudaStream_t curr_cuda_st = at::cuda::getCurrentCUDAStream().stream();
+  // CHECK: dpct::queue_ptr dev_cuda_st = &(c10::xpu::getCurrentXPUStream(devInd). queue());
+  cudaStream_t dev_cuda_st = at::cuda::getCurrentCUDAStream(devInd).stream();
+
+  test_CUDAStream_as_arg();
+
+  return 0;
+}
+
+// CHECK: void foo2(c10::DeviceGuard device_guard, float *f)  try {
+// CHECK-NEXT: (DPCT_CHECK_ERROR(f = (float *)sycl::malloc_device(4, c10::xpu::getCurrentXPUStream().queue())));
+void foo2(at::cuda::CUDAGuard device_guard, float *f) {
+  C10_CUDA_CHECK(cudaMalloc(&f, 4));
+}
+
+void foo3(at::Tensor x) {
+  // CHECK: c10::DeviceGuard device_guard{c10::Device(at::kXPU, (char)x.get_device())};
+  at::cuda::CUDAGuard device_guard{(char)x.get_device()};
+}
diff --git a/clang/tools/dpct/extensions/pytorch_api_rules/pytorch_api.yaml b/clang/tools/dpct/extensions/pytorch_api_rules/pytorch_api.yaml
@@ -192,3 +192,9 @@
   In: c10::cuda::CUDAGuard
   Out: c10::DeviceGuard
   Includes: [<c10/core/DeviceGuard.h>]
+
+- Rule: rule_decl_CUDAGuard_with_tenosr
+  Kind: PatternRewriter
+  Priority: Takeover
+  In: c10::DeviceGuard device_guard{${args}};
+  Out: c10::DeviceGuard device_guard{c10::Device(at::kXPU, ${args})};