Replace inline assembly with native code.

maleadt · maleadt · commit d188cc64a73a · 2025-02-11T12:26:14.000+01:00
diff --git a/src/device/intrinsics/math.jl b/src/device/intrinsics/math.jl
@@ -102,70 +102,38 @@ end
 
 @device_override Base.log(x::Float64) = ccall("extern __nv_log", llvmcall, Cdouble, (Cdouble,), x)
 @device_override Base.log(x::Float32) = ccall("extern __nv_logf", llvmcall, Cfloat, (Cfloat,), x)
-@device_override function Base.log(x::Float16)
-    log_x = @asmcall("""{.reg.b32        f, C;
-                  .reg.b16        r,h;
-                  mov.b16         h,\$1;
-                  cvt.f32.f16     f,h;
-                  lg2.approx.ftz.f32  f,f;
-                  mov.b32         C, 0x3f317218U;
-                  mul.f32         f,f,C;
-                  cvt.rn.f16.f32  r,f;
-                  .reg.b16 spc, ulp, p;
-                  mov.b16 spc, 0X160DU;
-                  mov.b16 ulp, 0x9C00U;
-                  set.eq.f16.f16 p, h, spc;
-                  fma.rn.f16 r,p,ulp,r;
-                  mov.b16 spc, 0X3BFEU;
-                  mov.b16 ulp, 0x8010U;
-                  set.eq.f16.f16 p, h, spc;
-                  fma.rn.f16 r,p,ulp,r;
-                  mov.b16 spc, 0X3C0BU;
-                  mov.b16 ulp, 0x8080U;
-                  set.eq.f16.f16 p, h, spc;
-                  fma.rn.f16 r,p,ulp,r;
-                  mov.b16 spc, 0X6051U;
-                  mov.b16 ulp, 0x1C00U;
-                  set.eq.f16.f16 p, h, spc;
-                  fma.rn.f16 r,p,ulp,r;
-                  mov.b16         \$0,r;
-                 }""", "=h,h", Float16, Tuple{Float16}, x)
-    return log_x
+@device_override function Base.log(h::Float16)
+    # perform computation in Float32 domain
+    f = Float32(h)
+    f = @fastmath log(f)
+    r = Float16(f)
+
+    # handle degenrate cases
+    r = fma(Float16(h == reinterpret(Float16, 0x160D)), reinterpret(Float16, 0x9C00), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x3BFE)), reinterpret(Float16, 0x8010), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x3C0B)), reinterpret(Float16, 0x8080), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x6051)), reinterpret(Float16, 0x1C00), r)
+
+    return r
 end
 
 @device_override FastMath.log_fast(x::Float32) = ccall("extern __nv_fast_logf", llvmcall, Cfloat, (Cfloat,), x)
 
 @device_override Base.log10(x::Float64) = ccall("extern __nv_log10", llvmcall, Cdouble, (Cdouble,), x)
 @device_override Base.log10(x::Float32) = ccall("extern __nv_log10f", llvmcall, Cfloat, (Cfloat,), x)
-@device_override function Base.log10(x::Float16)
-    log_x = @asmcall("""{.reg.b16         h, r;
-                         .reg.b32         f, C;
-                          mov.b16         h, \$1;
-                          cvt.f32.f16     f, h;
-                          lg2.approx.ftz.f32  f, f;
-                          mov.b32         C, 0x3E9A209BU;
-                          mul.f32         f,f,C;
-                          cvt.rn.f16.f32      r, f;
-                          .reg.b16 spc, ulp, p;
-                          mov.b16 spc, 0x338FU;
-                          mov.b16 ulp, 0x1000U;
-                          set.eq.f16.f16 p, h, spc;
-                          fma.rn.f16 r,p,ulp,r;
-                          mov.b16 spc, 0x33F8U;
-                          mov.b16 ulp, 0x9000U;
-                          set.eq.f16.f16 p, h, spc;
-                          fma.rn.f16 r,p,ulp,r;
-                          mov.b16 spc, 0x57E1U;
-                          mov.b16 ulp, 0x9800U;
-                          set.eq.f16.f16 p, h, spc;
-                          fma.rn.f16 r,p,ulp,r;
-                          mov.b16 spc, 0x719DU;
-                          mov.b16 ulp, 0x9C00U;
-                          set.eq.f16.f16 p, h, spc;
-                          fma.rn.f16 r,p,ulp,r;
-                          mov.b16         \$0, r;
-                         }""", "=h,h", Float16, Tuple{Float16}, x)
-    return log_x
+@device_override function Base.log10(h::Float16)
+    # perform computation in Float32 domain
+    f = Float32(h)
+    f = @fastmath log10(f)
+    r = Float16(f)
+
+    # handle degenerate cases
+    r = fma(Float16(h == reinterpret(Float16, 0x338F)), reinterpret(Float16, 0x1000), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x33F8)), reinterpret(Float16, 0x9000), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x57E1)), reinterpret(Float16, 0x9800), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x719D)), reinterpret(Float16, 0x9C00), r)
+
+    return r
 end
 @device_override FastMath.log10_fast(x::Float32) = ccall("extern __nv_fast_log10f", llvmcall, Cfloat, (Cfloat,), x)
 
@@ -174,25 +142,17 @@ end
 
 @device_override Base.log2(x::Float64) = ccall("extern __nv_log2", llvmcall, Cdouble, (Cdouble,), x)
 @device_override Base.log2(x::Float32) = ccall("extern __nv_log2f", llvmcall, Cfloat, (Cfloat,), x)
-@device_override function Base.log2(x::Float16)
-    log_x = @asmcall("""{.reg.b16         h, r;
-                         .reg.b32         f;
-                         mov.b16         h, \$1;
-                         cvt.f32.f16     f, h;
-                         lg2.approx.ftz.f32  f, f;
-                         cvt.rn.f16.f32      r, f;
-                         .reg.b16 spc, ulp, p;
-                         mov.b16 spc, 0xA2E2U;
-                         mov.b16 ulp, 0x8080U;
-                         set.eq.f16.f16 p, r, spc;
-                         fma.rn.f16 r,p,ulp,r;
-                         mov.b16 spc, 0xBF46U;
-                         mov.b16 ulp, 0x9400U;
-                         set.eq.f16.f16 p, r, spc;
-                         fma.rn.f16 r,p,ulp,r;
-                         mov.b16         \$0, r;
-                       }""", "=h,h", Float16, Tuple{Float16}, x)
-    return log_x
+@device_override function Base.log2(h::Float16)
+    # perform computation in Float32 domain
+    f = Float32(h)
+    f = @fastmath log2(f)
+    r = Float16(f)
+
+    # handle degenerate cases
+    r = fma(Float16(r == reinterpret(Float16, 0xA2E2)), reinterpret(Float16, 0x8080), r)
+    r = fma(Float16(r == reinterpret(Float16, 0xBF46)), reinterpret(Float16, 0x9400), r)
+
+    return r
 end
 @device_override FastMath.log2_fast(x::Float32) = ccall("extern __nv_fast_log2f", llvmcall, Cfloat, (Cfloat,), x)
 
@@ -207,94 +167,55 @@ end
 
 @device_override Base.exp(x::Float64) = ccall("extern __nv_exp", llvmcall, Cdouble, (Cdouble,), x)
 @device_override Base.exp(x::Float32) = ccall("extern __nv_expf", llvmcall, Cfloat, (Cfloat,), x)
-@device_override function Base.exp(x::Float16)
-    exp_x = @asmcall("""{
-                         .reg.b32         f, C, nZ;
-                         .reg.b16         h,r;
-                         mov.b16         h,\$1;
-                         cvt.f32.f16     f,h;
-                         mov.b32         C, 0x3fb8aa3bU;
-                         mov.b32         nZ, 0x80000000U;
-                         fma.rn.f32      f,f,C,nZ;
-                         ex2.approx.ftz.f32  f,f;
-                         cvt.rn.f16.f32      r,f;
-                         .reg.b16 spc, ulp, p;
-                         mov.b16 spc,0X1F79U;
-                         mov.b16 ulp,0x9400U;
-                         set.eq.f16.f16 p, h, spc;
-                         fma.rn.f16 r,p,ulp,r;
-                         mov.b16 spc,0X25CFU;
-                         mov.b16 ulp,0x9400U;
-                         set.eq.f16.f16 p, h, spc;
-                         fma.rn.f16 r,p,ulp,r;
-                         mov.b16 spc,0XC13BU;
-                         mov.b16 ulp,0x0400U;
-                         set.eq.f16.f16 p, h, spc;
-                         fma.rn.f16 r,p,ulp,r;
-                         mov.b16 spc,0XC1EFU;
-                         mov.b16 ulp,0x0200U;
-                         set.eq.f16.f16 p, h, spc;
-                         fma.rn.f16 r,p,ulp,r;
-                         mov.b16         \$0,r;
-                 }""", "=h,h", Float16, Tuple{Float16}, x)
-    return exp_x
+@device_override function Base.exp(h::Float16)
+    # perform computation in Float32 domain
+    f = Float32(h)
+    f = fma(f, reinterpret(Float32, 0x3fb8aa3b), reinterpret(Float32, Base.sign_mask(Float32)))
+    f = @fastmath exp2(f)
+    r = Float16(f)
+
+    # handle degenerate cases
+    r = fma(Float16(h == reinterpret(Float16, 0x1F79)), reinterpret(Float16, 0x9400), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x25CF)), reinterpret(Float16, 0x9400), r)
+    r = fma(Float16(h == reinterpret(Float16, 0xC13B)), reinterpret(Float16, 0x0400), r)
+    r = fma(Float16(h == reinterpret(Float16, 0xC1EF)), reinterpret(Float16, 0x0200), r)
+
+    return r
 end
 @device_override FastMath.exp_fast(x::Float32) = ccall("extern __nv_fast_expf", llvmcall, Cfloat, (Cfloat,), x)
 
 @device_override Base.exp2(x::Float64) = ccall("extern __nv_exp2", llvmcall, Cdouble, (Cdouble,), x)
 @device_override Base.exp2(x::Float32) = ccall("extern __nv_exp2f", llvmcall, Cfloat, (Cfloat,), x)
-@device_override function Base.exp2(x::Float16)
-    exp_x = @asmcall("""{.reg.b32         f, ULP;
-                         .reg.b16         r;
-                         mov.b16         r,\$1;
-                         cvt.f32.f16     f,r;
-                         ex2.approx.ftz.f32      f,f;
-                         mov.b32         ULP, 0x33800000U;
-                         fma.rn.f32      f,f,ULP,f;
-                         cvt.rn.f16.f32      r,f;
-                         mov.b16         \$0,r;
-                        }""", "=h,h", Float16, Tuple{Float16}, x)
-    return exp_x
+@device_override function Base.exp2(h::Float16)
+    # perform computation in Float32 domain
+    f = Float32(h)
+    f = @fastmath exp2(f)
+
+    # one ULP adjustement
+    f = muladd(f, reinterpret(Float32, 0x33800000), f)
+    r = Float16(f)
+
+    return r
 end
 @device_override FastMath.exp2_fast(x::Union{Float32, Float64}) = exp2(x)
 
 @device_override Base.exp10(x::Float64) = ccall("extern __nv_exp10", llvmcall, Cdouble, (Cdouble,), x)
 @device_override Base.exp10(x::Float32) = ccall("extern __nv_exp10f", llvmcall, Cfloat, (Cfloat,), x)
-@device_override function Base.exp10(x::Float16)
-
-    exp_x = @asmcall("""{.reg.b16         h,r;
-        .reg.b32         f, C, nZ;
-        mov.b16         h, \$1;
-        cvt.f32.f16     f, h;
-        mov.b32         C, 0x40549A78U;
-        mov.b32         nZ, 0x80000000U;
-        fma.rn.f32      f,f,C,nZ;
-        ex2.approx.ftz.f32  f, f;
-        cvt.rn.f16.f32      r, f;
-        .reg.b16 spc, ulp, p;
-        mov.b16 spc,0x34DEU;
-        mov.b16 ulp,0x9800U;
-        set.eq.f16.f16 p, h, spc;
-        fma.rn.f16 r,p,ulp,r;
-        mov.b16 spc,0x9766U;
-        mov.b16 ulp,0x9000U;
-        set.eq.f16.f16 p, h, spc;
-        fma.rn.f16 r,p,ulp,r;
-        mov.b16 spc,0x9972U;
-        mov.b16 ulp,0x1000U;
-        set.eq.f16.f16 p, h, spc;
-        fma.rn.f16 r,p,ulp,r;
-        mov.b16 spc,0xA5C4U;
-        mov.b16 ulp,0x1000U;
-        set.eq.f16.f16 p, h, spc;
-        fma.rn.f16 r,p,ulp,r;
-        mov.b16 spc,0xBF0AU;
-        mov.b16 ulp,0x8100U;
-        set.eq.f16.f16 p, h, spc;
-        fma.rn.f16 r,p,ulp,r;
-        mov.b16         \$0, r;
-        }""", "=h,h", Float16, Tuple{Float16}, x)
-    return exp_x
+@device_override function Base.exp10(h::Float16)
+    # perform computation in Float32 domain
+    f = Float32(h)
+    f = fma(f, reinterpret(Float32, 0x40549A78), reinterpret(Float32, Base.sign_mask(Float32)))
+    f = @fastmath exp2(f)
+    r = Float16(f)
+
+    # handle degenerate cases
+    r = fma(Float16(h == reinterpret(Float16, 0x34DE)), reinterpret(Float16, 0x9800), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x9766)), reinterpret(Float16, 0x9000), r)
+    r = fma(Float16(h == reinterpret(Float16, 0x9972)), reinterpret(Float16, 0x1000), r)
+    r = fma(Float16(h == reinterpret(Float16, 0xA5C4)), reinterpret(Float16, 0x1000), r)
+    r = fma(Float16(h == reinterpret(Float16, 0xBF0A)), reinterpret(Float16, 0x8100), r)
+
+    return r
 end
 @device_override FastMath.exp10_fast(x::Float32) = ccall("extern __nv_fast_exp10f", llvmcall, Cfloat, (Cfloat,), x)