ggml-org
diff --git a/‎ggml/include/ggml.h
Lines changed: 6 additions & 0 deletions b/‎ggml/include/ggml.h
Lines changed: 6 additions & 0 deletions
diff --git a/‎ggml/src/ggml-impl.h
Lines changed: 2 additions & 0 deletions b/‎ggml/src/ggml-impl.h
Lines changed: 2 additions & 0 deletions
@@ -346,6 +346,7 @@ extern "C" {
 
     // google brain half-precision bfloat16
     typedef struct { uint16_t bits; } ggml_bf16_t;
+    GGML_API ggml_bf16_t ggml_make_bf16(uint16_t val);
     GGML_API ggml_bf16_t ggml_fp32_to_bf16(float);
     GGML_API float       ggml_bf16_to_fp32(ggml_bf16_t);  // consider just doing << 16
     GGML_API void        ggml_bf16_to_fp32_row(const ggml_bf16_t *, float *, int64_t);
@@ -431,9 +432,14 @@ extern "C" {
         GGML_FTYPE_MOSTLY_IQ4_XS  = 22, // except 1d tensors
         GGML_FTYPE_MOSTLY_IQ1_M   = 23, // except 1d tensors
         GGML_FTYPE_MOSTLY_BF16    = 24, // except 1d tensors
+<<<<<<< HEAD
         GGML_FTYPE_MOSTLY_Q4_0_4_4 = 25, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q4_0_4_8 = 26, // except 1d tensors
         GGML_FTYPE_MOSTLY_Q4_0_8_8 = 27, // except 1d tensors
+=======
+        GGML_FTYPE_MOSTLY_Q4_0_B16 = 25, // except 1d tensors
+        GGML_FTYPE_MOSTLY_Q8_0_B16 = 26, // except 1d tensors
+>>>>>>> ed837022 (Introduce Q4_0 and Q8_0 quantizations with BF16 delta values)
     };
 
     // available tensor operations:
 
@@ -20,11 +20,13 @@
 #if defined(_MSC_VER)
 
 #define m512bh(p) p
+#define m128bh(p) p
 #define m512i(p) p
 
 #else
 
 #define m512bh(p) (__m512bh)(p)
+#define m128bh(p) (__m128bh)(p)
 #define m512i(p) (__m512i)(p)
 
 #endif