Common code.

ChipKerchner · ChipKerchner · commit fb287d17fc1a · 2024-09-25T16:31:36.000-05:00
diff --git a/kernel/power/sbgemv_common_power10.c b/kernel/power/sbgemv_common_power10.c
@@ -33,13 +33,41 @@ USE OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 #define USE_MERGE_MMA
 #endif
 
+FORCEINLINE void vec_load_pair2(vec_bf16 *in0, vec_bf16 *in)
+{
+  vec_load_pair((vec_f32 *)(in0 + 0), (vec_f32 *)(in + 0));
+  vec_load_pair((vec_f32 *)(in0 + 2), (vec_f32 *)(in + 2));
+}
+
 FORCEINLINE void vec_load_mult_mma(__vector_quad *out, vec_bf16 *in, vec_bf16 inp)
 {
   vec_bf16 in0 = (vec_bf16)vec_load_vec(in);
 
   __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0, (vec_uc8)inp);
 }
 
+FORCEINLINE void vec_load_mult12a_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 inp)
+{
+  vec_bf16 in01 = (vec_bf16)vec_load_vec(in0);
+  vec_bf16 in11 = (vec_bf16)vec_load_vec(in1);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11, (vec_uc8)inp);
+}
+
+FORCEINLINE void vec_load_mult14_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 *in2, vec_bf16 *in3, vec_bf16 inp)
+{
+  vec_bf16 in01 = (vec_bf16)vec_load_vec(in0);
+  vec_bf16 in11 = (vec_bf16)vec_load_vec(in1);
+  vec_bf16 in21 = (vec_bf16)vec_load_vec(in2);
+  vec_bf16 in31 = (vec_bf16)vec_load_vec(in3);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31, (vec_uc8)inp);
+}
+
 FORCEINLINE void vec_load_mult2_mma(__vector_quad *out, vec_bf16 *in, vec_bf16 *inp)
 {
   vec_bf16 in0[2];
@@ -50,13 +78,123 @@ FORCEINLINE void vec_load_mult2_mma(__vector_quad *out, vec_bf16 *in, vec_bf16 *
   __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0[1], (vec_uc8)inp[1]);
 }
 
+FORCEINLINE void vec_load_mult22_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 *inp)
+{
+  vec_bf16 in01[2], in11[2];
+
+  vec_load_pair((vec_f32 *)in01, (vec_f32 *)in0);
+  vec_load_pair((vec_f32 *)in11, (vec_f32 *)in1);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[1], (vec_uc8)inp[1]);
+}
+
+FORCEINLINE void vec_load_mult24_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 *in2, vec_bf16 *in3, vec_bf16 *inp)
+{
+  vec_bf16 in01[2], in11[2], in21[2], in31[2];
+
+  vec_load_pair((vec_f32 *)in01, (vec_f32 *)in0);
+  vec_load_pair((vec_f32 *)in11, (vec_f32 *)in1);
+  vec_load_pair((vec_f32 *)in21, (vec_f32 *)in2);
+  vec_load_pair((vec_f32 *)in31, (vec_f32 *)in3);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31[1], (vec_uc8)inp[1]);
+}
+
+FORCEINLINE void vec_load_mult4_mma(__vector_quad *out, vec_bf16 *in, vec_bf16 *inp)
+{
+  vec_bf16 in0[4];
+
+  vec_load_pair2(in0, in);
+
+  __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0[3], (vec_uc8)inp[3]);
+}
+
+FORCEINLINE void vec_load_mult42_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 *inp)
+{
+  vec_bf16 in01[4], in11[4];
+
+  vec_load_pair2(in01, in0);
+  vec_load_pair2(in11, in1);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[3], (vec_uc8)inp[3]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[3], (vec_uc8)inp[3]);
+}
+
+FORCEINLINE void vec_load_mult44_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 *in2, vec_bf16 *in3, vec_bf16 *inp)
+{
+  vec_bf16 in01[4], in11[4], in21[4], in31[4];
+
+  vec_load_pair2(in01, in0);
+  vec_load_pair2(in11, in1);
+  vec_load_pair2(in21, in2);
+  vec_load_pair2(in31, in3);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31[0], (vec_uc8)inp[0]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31[1], (vec_uc8)inp[1]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31[2], (vec_uc8)inp[2]);
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01[3], (vec_uc8)inp[3]);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11[3], (vec_uc8)inp[3]);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21[3], (vec_uc8)inp[3]);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31[3], (vec_uc8)inp[3]);
+}
+
 FORCEINLINE void vec_loadN_mult_mma(__vector_quad *out, vec_bf16 *in, vec_bf16 inp, BLASLONG n)
 {
   vec_bf16 in0 = vec_loadN(in, n);
 
   __builtin_mma_xvbf16ger2pp(out, (vec_uc8)in0, (vec_uc8)inp);
 }
 
+FORCEINLINE void vec_loadN_mult12a_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 inp, BLASLONG n)
+{
+  vec_bf16 in01 = (vec_bf16)vec_loadN(in0, n);
+  vec_bf16 in11 = (vec_bf16)vec_loadN(in1, n);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11, (vec_uc8)inp);
+}
+
+FORCEINLINE void vec_loadN_mult14_mma(__vector_quad *out, vec_bf16 *in0, vec_bf16 *in1, vec_bf16 *in2, vec_bf16 *in3, vec_bf16 inp, BLASLONG n)
+{
+  vec_bf16 in01 = (vec_bf16)vec_loadN(in0, n);
+  vec_bf16 in11 = (vec_bf16)vec_loadN(in1, n);
+  vec_bf16 in21 = (vec_bf16)vec_loadN(in2, n);
+  vec_bf16 in31 = (vec_bf16)vec_loadN(in3, n);
+
+  __builtin_mma_xvbf16ger2pp(out + 0, (vec_uc8)in01, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 1, (vec_uc8)in11, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 2, (vec_uc8)in21, (vec_uc8)inp);
+  __builtin_mma_xvbf16ger2pp(out + 3, (vec_uc8)in31, (vec_uc8)inp);
+}
+
 FORCEINLINE void vec_mult1_mma(__vector_quad *out, vec_bf16 in0, vec_bf16 inp)
 {
   vec_bf16 in00 = vec_mergeh(in0, in0);
diff --git a/kernel/power/sbgemv_n_power10.c b/kernel/power/sbgemv_n_power10.c
@@ -119,12 +119,12 @@ static void BF16GEMV_N_MMA_1(BLASLONG n, IFLOAT **ap, IFLOAT *xo, FLOAT *y, FLOA
   if (n > 4) {
     vec_loadN_mult12_mma(&temp[0], &va0[i], v_x0[ 0], n);
 
-    BLASLONG n3 = n & 3;
-    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    n &= 3;
+    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n);
 
     vec_reduce2_mma(&temp[0], temp0, v_alpha, vy0);
 
-    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n);
   } else if (n) {
     vec_loadN_mult11_mma(&temp[0], &va0[i], v_x0[ 0], n);
 
@@ -213,12 +213,12 @@ static void BF16GEMV_N_MMA_2(BLASLONG n, IFLOAT **ap, IFLOAT *xo, FLOAT *y, FLOA
   if (n > 4) {
     vec_loadN_mult22a_mma(&temp[0], &va0[i], &va1[i], v_x0[ 0], n);
 
-    BLASLONG n3 = n & 3;
-    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    n &= 3;
+    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n);
 
     vec_reduce2_mma(&temp[0], temp0, v_alpha, vy0);
 
-    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n);
   } else if (n) {
     vec_loadN_mult11a_mma(&temp[0], &va0[i], &va1[i], v_x0[ 0], n);
 
@@ -318,12 +318,12 @@ static void BF16GEMV_N_MMA_4(BLASLONG n, IFLOAT **ap, IFLOAT *xo, FLOAT *y, FLOA
     vec_loadN_mult22a_mma(&temp[0], &va0[i], &va1[i], v_x0[ 0], n);
     vec_loadN_mult22b_mma(&temp[0], &va2[i], &va3[i], v_x0[ 4], n);
 
-    BLASLONG n3 = n & 3;
-    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    n &= 3;
+    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n);
 
     vec_reduce2_mma(&temp[0], temp0, v_alpha, vy0);
 
-    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n);
   } else if (n) {
     vec_loadN_mult11a_mma(&temp[0], &va0[i], &va1[i], v_x0[ 0], n);
     vec_loadN_mult11b_mma(&temp[0], &va2[i], &va3[i], v_x0[ 4], n);
@@ -445,12 +445,12 @@ static void BF16GEMV_N_MMA_8(BLASLONG n, IFLOAT **ap, IFLOAT *xo, FLOAT *y, BLAS
     vec_loadN_mult22b_mma(&temp[0], &vb0[i], &vb1[i], v_x0[ 8], n);
     vec_loadN_mult22b_mma(&temp[0], &vb2[i], &vb3[i], v_x0[12], n);
 
-    BLASLONG n3 = n & 3;
-    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    n &= 3;
+    vec_loadN2_f32(vy0, &v_y[(i * 2) + 0], n);
 
     vec_reduce2_mma(&temp[0], temp0, v_alpha, vy0);
 
-    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n3);
+    vec_storeN2_f32(vy0, &v_y[(i * 2) + 0], n);
   } else if (n) {
     vec_loadN_mult11a_mma(&temp[0], &va0[i], &va1[i], v_x0[ 0], n);
     vec_loadN_mult11b_mma(&temp[0], &va2[i], &va3[i], v_x0[ 4], n);
diff --git a/kernel/power/sbgemv_t_power10.c b/kernel/power/sbgemv_t_power10.c