Merge pull request #148 from sx-aurora-dev/merge/ve-packed-broadcast

kaz7 · web-flow · commit 23524b6a8b2a · 2022-02-05T10:02:07.000+09:00
Merge/ve packed broadcast
diff --git a/llvm/lib/Target/VE/ShuffleSynthesis.cpp b/llvm/lib/Target/VE/ShuffleSynthesis.cpp
@@ -355,7 +355,7 @@ bool MaskShuffleAnalysis::analyzeVectorSources(bool &AllTrue) const {
 // materialize the code to synthesize this operation
 SDValue MaskShuffleAnalysis::synthesize(VECustomDAG &CDAG, EVT LegalMaskVT) {
   Packing PackFlag =
-      isPackedType(LegalMaskVT) ? Packing::Dense : Packing::Normal;
+      isPackedVectorType(LegalMaskVT) ? Packing::Dense : Packing::Normal;
 
   // this view reflects exactly those insertions that are non-constant and have
   // a MVT::i32 type
@@ -741,7 +741,7 @@ struct PatternShuffleOp final : public AbstractShuffleOp {
     EVT LegalResVT =
         PartialV.getValueType(); // LegalizeVectorType(Op.getValueType(),
                                  // Op, DAG, Mode);
-    bool Packed = isPackedType(LegalResVT);
+    bool Packed = isPackedVectorType(LegalResVT);
     unsigned NativeNumElems = LegalResVT.getVectorNumElements();
 
     EVT ElemTy = PartialV.getValueType().getVectorElementType();
@@ -1014,7 +1014,7 @@ struct ConstantElemOp final : public AbstractShuffleOp {
           cast<FixedVectorType>(VecConstant->getType())->getElementType();
       uint64_t Stride = (ElemTy->getPrimitiveSizeInBits().getFixedSize() + 7) /
                         8; // FIXME should be using datala
-      Packing P = isPackedType(LegalResVT) ? Packing::Dense : Packing::Normal;
+      Packing P = isPackedVectorType(LegalResVT) ? Packing::Dense : Packing::Normal;
       SDValue MaskV = CDAG.createUniformConstMask(
           P, LegalResVT.getVectorNumElements(), true);
       SDValue StrideV = CDAG.getConstant(Stride, MVT::i64);
diff --git a/llvm/lib/Target/VE/VECustomDAG.cpp b/llvm/lib/Target/VE/VECustomDAG.cpp
@@ -28,7 +28,7 @@ namespace llvm {
 /// Packing {
 
 bool isPackedMaskType(EVT SomeVT) {
-  return isPackedType(SomeVT) && isMaskType(SomeVT);
+  return isPackedVectorType(SomeVT) && isMaskType(SomeVT);
 }
 template <> Packing getPackingForMaskBits(const LaneBits MB) {
   return Packing::Normal;
@@ -81,7 +81,7 @@ MVT getUnpackSourceType(EVT VT, PackElem Elem) {
 
 Packing getPackingForVT(EVT VT) {
   assert(VT.isVector());
-  return isPackedType(VT) ? Packing::Dense : Packing::Normal;
+  return isPackedVectorType(VT) ? Packing::Dense : Packing::Normal;
 }
 
 // True, iff this is a VEC_UNPACK_LO/HI, VEC_SWAP or VEC_PACK.
@@ -278,7 +278,7 @@ unsigned getScalarReductionOpcode(unsigned VVPOC, bool IsMask) {
 }
 
 bool supportsPackedMode(unsigned Opcode, EVT IdiomVT) {
-  bool IsPackedOp = isPackedType(IdiomVT);
+  bool IsPackedOp = isPackedVectorType(IdiomVT);
   bool IsMaskOp = IdiomVT.getVectorElementType() == MVT::i1;
 
 #if 0
@@ -639,7 +639,7 @@ VecLenOpt minVectorLength(VecLenOpt A, VecLenOpt B) {
 }
 
 EVT splitType(LLVMContext &Ctx, EVT PackedVT, PackElem P) {
-  assert(isPackedType(PackedVT));
+  assert(isPackedVectorType(PackedVT));
   unsigned PackedNumEls = PackedVT.getVectorNumElements();
 
   unsigned OneExtra = P == PackElem::Hi ? PackedNumEls % 2 : 0;
@@ -650,7 +650,7 @@ EVT splitType(LLVMContext &Ctx, EVT PackedVT, PackElem P) {
 // Whether direct codegen for this type will result in a packed operation
 // (requiring a packed VL param..)
 
-bool isPackedType(EVT SomeVT) {
+bool isPackedVectorType(EVT SomeVT) {
   if (!SomeVT.isVector())
     return false;
   return SomeVT.getVectorNumElements() > StandardVectorWidth;
@@ -669,7 +669,7 @@ static SDValue supplementPackedReplication(SDValue Op, SelectionDAG &DAG) {
   auto VLOp = Op.getOperand(1);
 
   // v256x broadcast (element has to be i64/f64 always)
-  if (!isPackedType(VT))
+  if (!isPackedVectorType(VT))
     return Op;
 
   LLVM_DEBUG(dbgs() << "Legalize packed broadcast\n");
@@ -822,7 +822,7 @@ SDValue VECustomDAG::createElementShift(EVT ResVT, SDValue Src, int Offset,
 
   // vector shift
   EVT VecVT = Src.getValueType();
-  assert(!isPackedType(VecVT) && "TODO implement");
+  assert(!isPackedVectorType(VecVT) && "TODO implement");
   assert(!isMaskType(VecVT));
   return createVMV(ResVT, Src, getConstant(Offset, MVT::i32),
                    createUniformConstMask(Packing::Normal,
@@ -1076,7 +1076,7 @@ SDValue VECustomDAG::createMaskCast(SDValue VectorV, SDValue AVL) const {
   if (isMaskType(VectorV.getValueType()))
     return VectorV;
 
-  if (isPackedType(VectorV.getValueType())) {
+  if (isPackedVectorType(VectorV.getValueType())) {
     auto ValVT = VectorV.getValueType();
     auto LoPart =
         createUnpack(splitVectorType(ValVT), VectorV, PackElem::Lo, AVL);
diff --git a/llvm/lib/Target/VE/VECustomDAG.h b/llvm/lib/Target/VE/VECustomDAG.h
@@ -92,7 +92,7 @@ EVT splitType(EVT);
 
 // Whether direct codegen for this type will result in a packed operation
 // (requiring a packed VL param..)
-bool isPackedType(EVT SomeVT);
+bool isPackedVectorType(EVT SomeVT);
 bool isMaskType(EVT VT);
 bool isPackedMaskType(EVT SomeVT);
 bool isOverPackedType(EVT VT);
diff --git a/llvm/lib/Target/VE/VEISelLowering.cpp b/llvm/lib/Target/VE/VEISelLowering.cpp
@@ -11,10 +11,9 @@
 //
 //===----------------------------------------------------------------------===//
 
-#include "VECustomDAG.h"
 #include "VEISelLowering.h"
 #include "MCTargetDesc/VEMCExpr.h"
-#include "VEISelLowering.h"
+#include "VECustomDAG.h"
 #include "VEInstrBuilder.h"
 #include "VEMachineFunctionInfo.h"
 #include "VERegisterInfo.h"
@@ -2906,43 +2905,6 @@ SDValue VETargetLowering::generateEquivalentSub(SDNode *N, bool Signed,
   return Final;
 }
 
-/// This function is called when we have proved that a SETCC node can be
-/// replaced by EQV/XOR+CMOV instead of CMP+LEA+CMOV
-static SDValue generateEquivalentBitOp(SDNode *N, unsigned Cmp,
-                                       SelectionDAG &DAG) {
-  assert(N->getOpcode() == ISD::SETCC && "ISD::SETCC Expected.");
-
-  SDLoc DL(N);
-  auto Op0 = N->getOperand(0);
-  auto Op1 = N->getOperand(1);
-  EVT SrcVT = Op0.getValueType();
-  EVT VT = N->getValueType(0);
-  assert(SrcVT.isScalarInteger() &&
-         "Scalar integer is expected as inputs of ISD::SETCC.");
-  assert(VT == MVT::i32 && "i32 is expected as a result of ISD::SETCC.");
-
-  // Compare or equiv integers.
-  auto CmpNode = DAG.getNode(Cmp, DL, SrcVT, Op0, Op1);
-
-  // Adjust register size for CMOV's base register.
-  //   CMOV cmp, 1, base (=cmp)
-  auto Base = CmpNode;
-  if (VT != SrcVT) {
-    // Cmp is equal to 0 iff it is used as base register, so safe to use
-    // INSERT_SUBREG/EXTRACT_SUBRAG.
-    SDValue Sub_i32 = DAG.getTargetConstant(VE::sub_i32, DL, MVT::i32);
-    Base = SDValue(
-        DAG.getMachineNode(TargetOpcode::EXTRACT_SUBREG, DL, VT, Base, Sub_i32),
-        0);
-  }
-  // Set 1 iff comparison result is not equal to 0.
-  auto Cmoved =
-      DAG.getNode(VEISD::CMOV, DL, VT, CmpNode, DAG.getConstant(1, DL, VT),
-                  Base, DAG.getConstant(VECC::CC_INE, DL, MVT::i32));
-
-  return Cmoved;
-}
-
 /// This function is called when we have proved that a SETCC node can be
 /// replaced by CMP+CMOV or CMP+LEA+CMOV.
 SDValue VETargetLowering::generateEquivalentCmp(SDNode *N, bool UseCompAsBase,
diff --git a/llvm/lib/Target/VE/VEInstrInfo.td b/llvm/lib/Target/VE/VEInstrInfo.td
@@ -1721,6 +1721,7 @@ def f2l : OutPatFrag<(ops node:$exp),
 def l2f : OutPatFrag<(ops node:$exp),
                      (EXTRACT_SUBREG $exp, sub_f32)>;
 
+// Zero out subregisters.
 def zero_i32 : OutPatFrag<(ops node:$expr),
                           (ANDrm $expr, 32)>;
 def zero_f32 : OutPatFrag<(ops node:$expr),
@@ -2725,10 +2726,15 @@ def vec_pack        : SDNode<"VEISD::VEC_PACK", SDTypeProfile<1, 3,       [SDTCi
 // exchange the odd-even pairs in a v512.32
 def vec_swap        : SDNode<"VEISD::VEC_SWAP", SDTypeProfile<1, 2,       [SDTCisVec<0>, SDTCisVec<1>, SDTCisSameNumEltsAs<0,1>, IsVLVT<2>]>>;
 
-// replicate lower 32bit to upper 32bit (f32 scalar replication)
-def repl_f32        : SDNode<"VEISD::REPL_F32",  SDTypeProfile<1, 1,  [SDTCisInt<0>, SDTCisFP<1>]>>;
-// replicate upper 32bit to lower 32 bit (i32 scalar replication)
-def repl_i32        : SDNode<"VEISD::REPL_I32",  SDTypeProfile<1, 1,  [SDTCisInt<0>, SDTCisInt<1>]>>;
+// replicate lower 32bit to upper 32bit (f32 scalar replication).
+def repl_f32            : SDNode<"VEISD::REPL_F32",
+                            SDTypeProfile<1, 1,
+                              [SDTCisInt<0>, SDTCisFP<1>]>>;
+// replicate upper 32bit to lower 32 bit (i32 scalar replication).
+def repl_i32            : SDNode<"VEISD::REPL_I32",
+                            SDTypeProfile<1, 1,
+                              [SDTCisInt<0>, SDTCisInt<1>]>>;
+
 
 // Whether this is an all-true mask (assuming undef-bits above VL are all-true).
 def true_mask           : PatLeaf<
diff --git a/llvm/lib/Target/VE/VEInstrPatternsVec.td b/llvm/lib/Target/VE/VEInstrPatternsVec.td
@@ -26,7 +26,6 @@ def: Pat<(i64 (repl_i32 i32:$val)),
               (SLLri (i2l $val), 32))>;
 
 
-
 ///// Mask insert, extract, popcount /////
 
 // Mask Insert & Extract
@@ -238,11 +237,10 @@ defm : patterns_elem32<v256f32, f32, simm7fp, LO7FP, l2f, f2l>;
 defm : patterns_elem64<v256i64, i64, simm7, LO7>;
 defm : patterns_elem64<v256f64, f64, simm7fp, LO7FP>;
 
-
-def: Pat<(v512i32 (vec_broadcast i64:$val, i32:$vl)),
-         (PVBRDrl $val, $vl)>;
-def: Pat<(v512f32 (vec_broadcast i64:$val, i32:$vl)),
-         (PVBRDrl $val, $vl)>;
+defm : vbrd_elem64<v512i32, i64, simm7, LO7>;
+defm : vbrd_elem64<v512f32, i64, simm7, LO7>;
+defm : vbrd_elem64<v512i32, f64, simm7fp, LO7FP>;
+defm : vbrd_elem64<v512f32, f64, simm7fp, LO7FP>;
 
 
 ///// vec_seq /////
diff --git a/llvm/lib/Target/VE/VVPISelLowering.cpp b/llvm/lib/Target/VE/VVPISelLowering.cpp
@@ -431,7 +431,7 @@ static const MVT PackedVectorVTs[] = {MVT::v512i32, MVT::v512f32, MVT::v512f64,
 void VETargetLowering::initRegisterClasses_VVP() {
   // VVP-based backend.
   for (MVT VecVT : AllVectorVTs)
-    if (!isPackedType(VecVT) || Subtarget->hasPackedMode())
+    if (!isPackedVectorType(VecVT) || Subtarget->hasPackedMode())
       addRegisterClass(VecVT, &VE::V64RegClass);
 
   addRegisterClass(MVT::v256i1, &VE::VMRegClass);
@@ -687,7 +687,7 @@ void VETargetLowering::initVPUActions() {
     ForAll_setOperationAction(VectorTransformOCs, MaskVT, Custom);
 
     // Custom split packed mask operations.
-    if (isPackedType(MaskVT))
+    if (isPackedVectorType(MaskVT))
       ForAll_setOperationAction(IntArithOCs, MaskVT, Custom);
   }
 
@@ -1747,15 +1747,15 @@ SDValue VETargetLowering::legalizeInternalLoadStoreOp(SDValue Op,
   EVT DataVT = *getIdiomaticType(Op.getNode());
 
   // Ignore the VLD mask as an optimization.
-  if (!isPackedType(DataVT) &&
+  if (!isPackedVectorType(DataVT) &&
       (Op->getOpcode() == VEISD::VVP_LOAD && OptimizeVectorMemory)) {
     auto AllTrueMask = CDAG.createUniformConstMask(MVT::v256i1, true);
     return CDAG.getVVPLoad(Op.getValueType(), Op.getOperand(0),
                            Op.getOperand(1), Op.getOperand(2), AllTrueMask,
                            Op.getOperand(4));
   }
 
-  if (!isPackedType(DataVT)) {
+  if (!isPackedVectorType(DataVT)) {
     LLVM_DEBUG(dbgs() << "Legal!\n");
     return Op;
   }
@@ -1805,7 +1805,7 @@ SDValue VETargetLowering::legalizeVM_POPCOUNT(SDValue Op,
   LLVM_DEBUG(dbgs() << "::LegalizeVM_POPCOUNT\n";);
   auto Mask = Op->getOperand(0);
   auto AVL = Op->getOperand(1);
-  if (!isPackedType(Mask.getValueType()))
+  if (!isPackedVectorType(Mask.getValueType()))
     return Op;
 
   VECustomDAG CDAG(*this, DAG, Op);
@@ -2464,7 +2464,7 @@ SDValue VETargetLowering::lowerVectorShuffleOp(SDValue Op, SelectionDAG &DAG,
   if (Res)
     return Res;
 
-  assert(isPackedType(LegalResVT) &&
+  assert(isPackedVectorType(LegalResVT) &&
          "normal and over-packed EVTs should have been lowered by now!");
   return splitVectorShuffle(Op, CDAG, Mode);
 }
diff --git a/llvm/test/CodeGen/VE/Packed/broadcast_packed.ll b/llvm/test/CodeGen/VE/Packed/broadcast_packed.ll
@@ -11,10 +11,10 @@ define x86_regcallcc <1024 x i32> @brdv512i32x2(i32) {
 ; CHECK-NEXT:    or %s0, %s0, %s1
 ; CHECK-NEXT:    lea %s1, 129
 ; CHECK-NEXT:    lvl %s1
-; CHECK-NEXT:    pvbrd %v0, %s0
+; CHECK-NEXT:    vbrd %v0, %s0
 ; CHECK-NEXT:    lea %s1, 130
 ; CHECK-NEXT:    lvl %s1
-; CHECK-NEXT:    pvbrd %v1, %s0
+; CHECK-NEXT:    vbrd %v1, %s0
 ; CHECK-NEXT:    b.l.t (, %s10)
   %val = insertelement <1024 x i32> undef, i32 %0, i32 0
   %r0 = insertelement <1024 x i32> %val, i32 %0, i32 1
@@ -34,7 +34,7 @@ define x86_regcallcc <512 x i32> @brdv512i32(i32) {
 ; CHECK-NEXT:    or %s0, %s0, %s1
 ; CHECK-NEXT:    or %s1, 1, (0)1
 ; CHECK-NEXT:    lvl %s1
-; CHECK-NEXT:    pvbrd %v0, %s0
+; CHECK-NEXT:    vbrd %v0, %s0
 ; CHECK-NEXT:    b.l.t (, %s10)
   %val = insertelement <512 x i32> undef, i32 %0, i32 0
   %ret = insertelement <512 x i32> %val, i32 %0, i32 1
@@ -50,7 +50,7 @@ define x86_regcallcc <512 x float> @brdv512f32(float) {
 ; CHECK-NEXT:    or %s0, %s0, %s1
 ; CHECK-NEXT:    or %s1, 1, (0)1
 ; CHECK-NEXT:    lvl %s1
-; CHECK-NEXT:    pvbrd %v0, %s0
+; CHECK-NEXT:    vbrd %v0, %s0
 ; CHECK-NEXT:    b.l.t (, %s10)
   %val = insertelement <512 x float> undef, float %0, i32 0
   %ret = insertelement <512 x float> %val, float %0, i32 1
diff --git a/llvm/test/CodeGen/VE/Packed/vec_broadcast.ll b/llvm/test/CodeGen/VE/Packed/vec_broadcast.ll
@@ -0,0 +1,65 @@
+; NOTE: Assertions have been autogenerated by utils/update_llc_test_checks.py
+; RUN: llc < %s -mtriple=ve-unknown-unknown -mattr=+vpu | FileCheck %s
+
+define fastcc <512 x i32> @brd_v512i32(i32 %s) {
+; CHECK-LABEL: brd_v512i32:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    and %s0, %s0, (32)0
+; CHECK-NEXT:    sll %s1, %s0, 32
+; CHECK-NEXT:    and %s0, %s0, (32)0
+; CHECK-NEXT:    or %s0, %s0, %s1
+; CHECK-NEXT:    lea %s1, 256
+; CHECK-NEXT:    lvl %s1
+; CHECK-NEXT:    vbrd %v0, %s0
+; CHECK-NEXT:    b.l.t (, %s10)
+  %val = insertelement <512 x i32> undef, i32 %s, i32 0
+  %ret = shufflevector <512 x i32> %val, <512 x i32> undef, <512 x i32> zeroinitializer
+  ret <512 x i32> %ret
+}
+
+define fastcc <512 x i32> @brdi_v512i32() {
+; CHECK-LABEL: brdi_v512i32:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    or %s0, 17, (0)1
+; CHECK-NEXT:    sll %s1, %s0, 32
+; CHECK-NEXT:    and %s0, %s0, (32)0
+; CHECK-NEXT:    or %s0, %s0, %s1
+; CHECK-NEXT:    lea %s1, 256
+; CHECK-NEXT:    lvl %s1
+; CHECK-NEXT:    vbrd %v0, %s0
+; CHECK-NEXT:    b.l.t (, %s10)
+  %val = insertelement <512 x i32> undef, i32 17, i32 0
+  %ret = shufflevector <512 x i32> %val, <512 x i32> undef, <512 x i32> zeroinitializer
+  ret <512 x i32> %ret
+}
+
+define fastcc <512 x float> @brd_v512f32(float %s) {
+; CHECK-LABEL: brd_v512f32:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    and %s1, %s0, (32)1
+; CHECK-NEXT:    srl %s0, %s0, 32
+; CHECK-NEXT:    or %s0, %s0, %s1
+; CHECK-NEXT:    lea %s1, 256
+; CHECK-NEXT:    lvl %s1
+; CHECK-NEXT:    vbrd %v0, %s0
+; CHECK-NEXT:    b.l.t (, %s10)
+  %val = insertelement <512 x float> undef, float %s, i32 0
+  %ret = shufflevector <512 x float> %val, <512 x float> undef, <512 x i32> zeroinitializer
+  ret <512 x float> %ret
+}
+
+define fastcc <512 x float> @brdi_v512f32() {
+; CHECK-LABEL: brdi_v512f32:
+; CHECK:       # %bb.0:
+; CHECK-NEXT:    lea.sl %s0, 0
+; CHECK-NEXT:    and %s1, %s0, (32)1
+; CHECK-NEXT:    srl %s0, %s0, 32
+; CHECK-NEXT:    or %s0, %s0, %s1
+; CHECK-NEXT:    lea %s1, 256
+; CHECK-NEXT:    lvl %s1
+; CHECK-NEXT:    vbrd %v0, %s0
+; CHECK-NEXT:    b.l.t (, %s10)
+  %val = insertelement <512 x float> undef, float 0.e+00, i32 0
+  %ret = shufflevector <512 x float> %val, <512 x float> undef, <512 x i32> zeroinitializer
+  ret <512 x float> %ret
+}
diff --git a/llvm/test/CodeGen/VE/Packed/vp-reduce-v512i32-mask-avl-isel.ll b/llvm/test/CodeGen/VE/Packed/vp-reduce-v512i32-mask-avl-isel.ll