@@ -55,11 +55,11 @@ define void @cp_async_bulk_tensor_g2s_tile_1d(ptr addrspace(7) %d, ptr addrspace
55
55
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.1d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3}], [%r2], %rs1;
56
56
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.1d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3}], [%r2], %rs1, %rd2;
57
57
; CHECK-PTX-SHARED32-NEXT: ret;
58
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 undef , i64 undef , i1 0 , i1 0 )
58
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 0 , i1 0 )
59
59
60
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 undef , i64 %ch , i1 0 , i1 1 )
60
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 0 , i1 1 )
61
61
62
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 undef , i1 1 , i1 0 )
62
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 1 , i1 0 )
63
63
64
64
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.1d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i16 %mc , i64 %ch , i1 1 , i1 1 )
65
65
ret void
@@ -106,11 +106,11 @@ define void @cp_async_bulk_tensor_g2s_tile_2d(ptr addrspace(7) %d, ptr addrspace
106
106
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.2d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4}], [%r2], %rs1;
107
107
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.2d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4}], [%r2], %rs1, %rd2;
108
108
; CHECK-PTX-SHARED32-NEXT: ret;
109
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 undef , i64 undef , i1 0 , i1 0 )
109
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 0 , i1 0 )
110
110
111
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 undef , i64 %ch , i1 0 , i1 1 )
111
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 0 , i1 1 )
112
112
113
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 undef , i1 1 , i1 0 )
113
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 1 , i1 0 )
114
114
115
115
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.2d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i16 %mc , i64 %ch , i1 1 , i1 1 )
116
116
ret void
@@ -159,9 +159,9 @@ define void @cp_async_bulk_tensor_g2s_tile_3d(ptr addrspace(7) %d, ptr addrspace
159
159
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], %rs1;
160
160
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], %rs1, %rd2;
161
161
; CHECK-PTX-SHARED32-NEXT: ret;
162
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 undef , i64 undef , i1 0 , i1 0 )
162
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %mc , i64 %ch , i1 0 , i1 0 )
163
163
164
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 undef , i64 %ch , i1 0 , i1 1 )
164
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %mc , i64 %ch , i1 0 , i1 1 )
165
165
166
166
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %mc , i64 %ch , i1 1 , i1 0 )
167
167
@@ -214,9 +214,9 @@ define void @cp_async_bulk_tensor_g2s_tile_4d(ptr addrspace(7) %d, ptr addrspace
214
214
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], %rs1;
215
215
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], %rs1, %rd2;
216
216
; CHECK-PTX-SHARED32-NEXT: ret;
217
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 undef , i64 undef , i1 0 , i1 0 )
217
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %mc , i64 %ch , i1 0 , i1 0 )
218
218
219
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 undef , i64 %ch , i1 0 , i1 1 )
219
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %mc , i64 %ch , i1 0 , i1 1 )
220
220
221
221
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %mc , i64 %ch , i1 1 , i1 0 )
222
222
@@ -271,9 +271,9 @@ define void @cp_async_bulk_tensor_g2s_tile_5d(ptr addrspace(7) %d, ptr addrspace
271
271
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], %rs1;
272
272
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.tile.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], %rs1, %rd2;
273
273
; CHECK-PTX-SHARED32-NEXT: ret;
274
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 undef , i64 undef , i1 0 , i1 0 )
274
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %mc , i64 %ch , i1 0 , i1 0 )
275
275
276
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 undef , i64 %ch , i1 0 , i1 1 )
276
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %mc , i64 %ch , i1 0 , i1 1 )
277
277
278
278
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.tile.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %mc , i64 %ch , i1 1 , i1 0 )
279
279
@@ -326,9 +326,9 @@ define void @cp_async_bulk_tensor_g2s_im2col_3d(ptr addrspace(7) %d, ptr addrspa
326
326
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], {%rs1}, %rs2;
327
327
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.3d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5}], [%r2], {%rs1}, %rs2, %rd2;
328
328
; CHECK-PTX-SHARED32-NEXT: ret;
329
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 undef , i64 undef , i1 0 , i1 0 )
329
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 %mc , i64 %ch , i1 0 , i1 0 )
330
330
331
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 undef , i64 %ch , i1 0 , i1 1 )
331
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 %mc , i64 %ch , i1 0 , i1 1 )
332
332
333
333
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.3d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i16 %im2col0 , i16 %mc , i64 %ch , i1 1 , i1 0 )
334
334
@@ -385,9 +385,9 @@ define void @cp_async_bulk_tensor_g2s_im2col_4d(ptr addrspace(7) %d, ptr addrspa
385
385
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], {%rs1, %rs2}, %rs3;
386
386
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.4d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6}], [%r2], {%rs1, %rs2}, %rs3, %rd2;
387
387
; CHECK-PTX-SHARED32-NEXT: ret;
388
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 undef , i64 undef , i1 0 , i1 0 )
388
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 %mc , i64 %ch , i1 0 , i1 0 )
389
389
390
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 undef , i64 %ch , i1 0 , i1 1 )
390
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 %mc , i64 %ch , i1 0 , i1 1 )
391
391
392
392
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.4d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i16 %im2col0 , i16 %im2col1 , i16 %mc , i64 %ch , i1 1 , i1 0 )
393
393
@@ -448,9 +448,9 @@ define void @cp_async_bulk_tensor_g2s_im2col_5d(ptr addrspace(7) %d, ptr addrspa
448
448
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], {%rs1, %rs2, %rs3}, %rs4;
449
449
; CHECK-PTX-SHARED32-NEXT: cp.async.bulk.tensor.5d.shared::cluster.global.im2col.mbarrier::complete_tx::bytes.multicast::cluster.L2::cache_hint [%r1], [%rd1, {%r3, %r4, %r5, %r6, %r7}], [%r2], {%rs1, %rs2, %rs3}, %rs4, %rd2;
450
450
; CHECK-PTX-SHARED32-NEXT: ret;
451
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 undef , i64 undef , i1 0 , i1 0 )
451
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 %mc , i64 %ch , i1 0 , i1 0 )
452
452
453
- tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 undef , i64 %ch , i1 0 , i1 1 )
453
+ tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 %mc , i64 %ch , i1 0 , i1 1 )
454
454
455
455
tail call void @llvm.nvvm.cp.async.bulk.tensor.g2s.im2col.5d (ptr addrspace (7 ) %d , ptr addrspace (3 ) %bar , ptr %tmap , i32 %d0 , i32 %d1 , i32 %d2 , i32 %d3 , i32 %d4 , i16 %im2col0 , i16 %im2col1 , i16 %im2col2 , i16 %mc , i64 %ch , i1 1 , i1 0 )
456
456
0 commit comments