intel
diff --git a/‎clang/include/clang/Basic/BuiltinsNVPTX.def
Lines changed: 2 additions & 0 deletions b/‎clang/include/clang/Basic/BuiltinsNVPTX.def
Lines changed: 2 additions & 0 deletions
diff --git a/‎clang/include/clang/Driver/Options.td
Lines changed: 1 addition & 1 deletion b/‎clang/include/clang/Driver/Options.td
Lines changed: 1 addition & 1 deletion
diff --git a/‎clang/lib/Driver/ToolChain.cpp
Lines changed: 1 addition & 1 deletion b/‎clang/lib/Driver/ToolChain.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎clang/lib/Frontend/InitPreprocessor.cpp
Lines changed: 3 additions & 2 deletions b/‎clang/lib/Frontend/InitPreprocessor.cpp
Lines changed: 3 additions & 2 deletions
diff --git a/‎clang/test/Driver/sycl-offload.c
Lines changed: 5 additions & 0 deletions b/‎clang/test/Driver/sycl-offload.c
Lines changed: 5 additions & 0 deletions
diff --git a/‎clang/test/Preprocessor/sycl-macro-target-specific.cpp
Lines changed: 1 addition & 1 deletion b/‎clang/test/Preprocessor/sycl-macro-target-specific.cpp
Lines changed: 1 addition & 1 deletion
diff --git a/‎libclc/ptx-nvidiacl/libspirv/SOURCES
Lines changed: 2 additions & 0 deletions b/‎libclc/ptx-nvidiacl/libspirv/SOURCES
Lines changed: 2 additions & 0 deletions
diff --git a/‎libclc/ptx-nvidiacl/libspirv/atomic/atomic_add.cl
Lines changed: 92 additions & 1 deletion b/‎libclc/ptx-nvidiacl/libspirv/atomic/atomic_add.cl
Lines changed: 92 additions & 1 deletion
@@ -347,6 +347,8 @@ BUILTIN(__nvvm_rcp_rm_ftz_f, "ff", "")
 BUILTIN(__nvvm_rcp_rm_f, "ff", "")
 BUILTIN(__nvvm_rcp_rp_ftz_f, "ff", "")
 BUILTIN(__nvvm_rcp_rp_f, "ff", "")
+BUILTIN(__nvvm_rcp_approx_f, "ff", "")
+BUILTIN(__nvvm_rcp_approx_ftz_f, "ff", "")
 
 BUILTIN(__nvvm_rcp_rn_d, "dd", "")
 BUILTIN(__nvvm_rcp_rz_d, "dd", "")
 
@@ -1553,7 +1553,7 @@ def ffp_exception_behavior_EQ : Joined<["-"], "ffp-exception-behavior=">, Group<
   MarshallingInfoEnum<LangOpts<"FPExceptionMode">, "FPE_Ignore">;
 defm fast_math : BoolFOption<"fast-math",
   LangOpts<"FastMath">, DefaultFalse,
-  PosFlag<SetTrue, [CC1Option], "Allow aggressive, lossy floating-point optimizations",
+  PosFlag<SetTrue, [CC1Option, CoreOption], "Allow aggressive, lossy floating-point optimizations",
           [cl_fast_relaxed_math.KeyPath]>,
   NegFlag<SetFalse>>;
 def menable_unsafe_fp_math : Flag<["-"], "menable-unsafe-fp-math">, Flags<[CC1Option]>,
 
@@ -1287,7 +1287,7 @@ llvm::opt::DerivedArgList *ToolChain::TranslateOffloadTargetArgs(
       // improved upon
       auto SingleTargetTripleCount = [&Args](OptSpecifier Opt) {
         const Arg *TargetArg = Args.getLastArg(Opt);
-        if (TargetArg && TargetArg->getValues().size() == 1)
+        if (!TargetArg || TargetArg->getValues().size() == 1)
           return true;
         return false;
       };
 
@@ -1289,8 +1289,9 @@ static void InitializePredefinedMacros(const TargetInfo &TI,
 
     const llvm::Triple &DeviceTriple = TI.getTriple();
     const llvm::Triple::SubArchType DeviceSubArch = DeviceTriple.getSubArch();
-    if (DeviceTriple.isSPIR() &&
-        DeviceSubArch != llvm::Triple::SPIRSubArch_fpga)
+    if (DeviceTriple.isNVPTX() ||
+        (DeviceTriple.isSPIR() &&
+         DeviceSubArch != llvm::Triple::SPIRSubArch_fpga))
       Builder.defineMacro("SYCL_USE_NATIVE_FP_ATOMICS");
     // Enable generation of USM address spaces for FPGA.
     if (DeviceSubArch == llvm::Triple::SPIRSubArch_fpga) {
 
@@ -671,6 +671,11 @@
 // RUN:   | FileCheck -check-prefix=CHK-FSYCL-TARGET-2X-ERROR %s
 // CHK-FSYCL-TARGET-2X-ERROR-NOT: clang{{.*}} error: cannot deduce implicit triple value for '-Xsycl-target{{.*}}', specify triple using '-Xsycl-target{{.*}}=<triple>'
 
+/// Check -Xsycl-target-frontend does not trigger an error when no -fsycl-targets is specified
+// RUN:   %clang -### -fsycl -Xsycl-target-frontend -DFOO %s 2>&1 \
+// RUN:   | FileCheck -check-prefix=CHK-NO-FSYCL-TARGET-ERROR %s
+// CHK-NO-FSYCL-TARGET-ERROR-NOT: clang{{.*}} error: cannot deduce implicit triple value for '-Xsycl-target-frontend', specify triple using '-Xsycl-target-frontend=<triple>'
+
 /// ###########################################################################
 
 /// Ahead of Time compilation for fpga, gen, cpu
 
@@ -20,7 +20,7 @@
 // RUN: %clang_cc1 %s -fsycl-is-device -triple spir64_fpga-unknown-unknown -E -dM \
 // RUN: | FileCheck --check-prefix=CHECK-SYCL-FP-ATOMICS-NEG %s
 // RUN: %clang_cc1 %s -fsycl-is-device -triple nvptx64-nvidia-nvcl -E -dM \
-// RUN: | FileCheck --check-prefix=CHECK-SYCL-FP-ATOMICS-NEG %s
+// RUN: | FileCheck --check-prefix=CHECK-SYCL-FP-ATOMICS %s
 // CHECK-SYCL-FP-ATOMICS: #define SYCL_USE_NATIVE_FP_ATOMICS
 // CHECK-SYCL-FP-ATOMICS-NEG-NOT: #define SYCL_USE_NATIVE_FP_ATOMICS
 
 
@@ -43,13 +43,15 @@ math/log2.cl
 math/logb.cl
 math/modf.cl
 math/native_cos.cl
+math/native_divide.cl
 math/native_exp.cl
 math/native_exp10.cl
 math/native_exp2.cl
 math/native_log.cl
 math/native_log10.cl
 math/native_log2.cl
 math/native_powr.cl
+math/native_recip.cl
 math/native_rsqrt.cl
 math/native_sin.cl
 math/native_sqrt.cl
 
@@ -17,7 +17,98 @@ __CLC_NVVM_ATOMIC(ulong, m, long, l, add, _Z18__spirv_AtomicIAdd)
 
 __CLC_NVVM_ATOMIC(float, f, float, f, add, _Z21__spirv_AtomicFAddEXT)
 #ifdef cl_khr_int64_base_atomics
-__CLC_NVVM_ATOMIC(double, d, double, d, add, _Z21__spirv_AtomicFAddEXT)
+
+#define __CLC_NVVM_ATOMIC_ADD_DOUBLE_IMPL(ADDR_SPACE, ADDR_SPACE_MANGLED,                                                                                     \
+                                          ADDR_SPACE_NV, SUBSTITUTION1,                                                                                       \
+                                          SUBSTITUTION2)                                                                                                      \
+  long                                                                                                                                                        \
+      _Z18__spirv_AtomicLoadP##ADDR_SPACE_MANGLED##KlN5__spv5Scope4FlagENS1_19MemorySemanticsMask4FlagE(                                                      \
+          volatile ADDR_SPACE const long *, enum Scope,                                                                                                       \
+          enum MemorySemanticsMask);                                                                                                                          \
+  long                                                                                                                                                        \
+      _Z29__spirv_AtomicCompareExchange##P##ADDR_SPACE_MANGLED##lN5__spv5Scope4FlagENS##SUBSTITUTION1##_19MemorySemanticsMask4FlagES##SUBSTITUTION2##_ll(     \
+          volatile ADDR_SPACE long *, enum Scope, enum MemorySemanticsMask,                                                                                   \
+          enum MemorySemanticsMask, long, long);                                                                                                              \
+  __attribute__((always_inline)) _CLC_DECL double                                                                                                             \
+      _Z21__spirv_AtomicFAddEXT##P##ADDR_SPACE_MANGLED##d##N5__spv5Scope4FlagENS1_19MemorySemanticsMask4FlagE##d(                                             \
+          volatile ADDR_SPACE double *pointer, enum Scope scope,                                                                                              \
+          enum MemorySemanticsMask semantics, double value) {                                                                                                 \
+    /* Semantics mask may include memory order, storage class and other info                                                                                  \
+Memory order is stored in the lowest 5 bits */                                                                                                                \
+    unsigned int order = semantics & 0x1F;                                                                                                                    \
+    if (__clc_nvvm_reflect_arch() >= 600) {                                                                                                                   \
+      switch (order) {                                                                                                                                        \
+      case None:                                                                                                                                              \
+        __CLC_NVVM_ATOMIC_IMPL_ORDER(double, double, d, add, ADDR_SPACE,                                                                                      \
+                                     ADDR_SPACE_NV, )                                                                                                         \
+        break;                                                                                                                                                \
+      case Acquire:                                                                                                                                           \
+        if (__clc_nvvm_reflect_arch() >= 700) {                                                                                                               \
+          __CLC_NVVM_ATOMIC_IMPL_ORDER(double, double, d, add, ADDR_SPACE,                                                                                    \
+                                       ADDR_SPACE_NV, _acquire)                                                                                               \
+        } else {                                                                                                                                              \
+          __CLC_NVVM_ATOMIC_IMPL_ACQUIRE_FENCE(double, double, d, add,                                                                                        \
+                                               ADDR_SPACE, ADDR_SPACE_NV)                                                                                     \
+        }                                                                                                                                                     \
+        break;                                                                                                                                                \
+      case Release:                                                                                                                                           \
+        if (__clc_nvvm_reflect_arch() >= 700) {                                                                                                               \
+          __CLC_NVVM_ATOMIC_IMPL_ORDER(double, double, d, add, ADDR_SPACE,                                                                                    \
+                                       ADDR_SPACE_NV, _release)                                                                                               \
+        } else {                                                                                                                                              \
+          __spirv_MemoryBarrier(scope, Release);                                                                                                              \
+          __CLC_NVVM_ATOMIC_IMPL_ORDER(double, double, d, add, ADDR_SPACE,                                                                                    \
+                                       ADDR_SPACE_NV, )                                                                                                       \
+        }                                                                                                                                                     \
+        break;                                                                                                                                                \
+      case AcquireRelease:                                                                                                                                    \
+        if (__clc_nvvm_reflect_arch() >= 700) {                                                                                                               \
+          __CLC_NVVM_ATOMIC_IMPL_ORDER(double, double, d, add, ADDR_SPACE,                                                                                    \
+                                       ADDR_SPACE_NV, _acq_rel)                                                                                               \
+        } else {                                                                                                                                              \
+          __spirv_MemoryBarrier(scope, Release);                                                                                                              \
+          __CLC_NVVM_ATOMIC_IMPL_ACQUIRE_FENCE(double, double, d, add,                                                                                        \
+                                               ADDR_SPACE, ADDR_SPACE_NV)                                                                                     \
+        }                                                                                                                                                     \
+        break;                                                                                                                                                \
+      }                                                                                                                                                       \
+      __builtin_trap();                                                                                                                                       \
+      __builtin_unreachable();                                                                                                                                \
+    } else {                                                                                                                                                  \
+      enum MemorySemanticsMask load_order;                                                                                                                    \
+      switch (semantics) {                                                                                                                                    \
+      case SequentiallyConsistent:                                                                                                                            \
+        load_order = SequentiallyConsistent;                                                                                                                  \
+        break;                                                                                                                                                \
+      case Acquire:                                                                                                                                           \
+      case AcquireRelease:                                                                                                                                    \
+        load_order = Acquire;                                                                                                                                 \
+        break;                                                                                                                                                \
+      default:                                                                                                                                                \
+        load_order = None;                                                                                                                                    \
+      }                                                                                                                                                       \
+      volatile ADDR_SPACE long *pointer_int =                                                                                                                 \
+          (volatile ADDR_SPACE long *)pointer;                                                                                                                \
+      long old_int;                                                                                                                                           \
+      long new_val_int;                                                                                                                                       \
+      do {                                                                                                                                                    \
+        old_int =                                                                                                                                             \
+            _Z18__spirv_AtomicLoadP##ADDR_SPACE_MANGLED##KlN5__spv5Scope4FlagENS1_19MemorySemanticsMask4FlagE(                                                \
+                pointer_int, scope, load_order);                                                                                                              \
+        double new_val = *(double *)&old_int + *(double *)&value;                                                                                             \
+        new_val_int = *(long *)&new_val;                                                                                                                      \
+      } while (                                                                                                                                               \
+          _Z29__spirv_AtomicCompareExchange##P##ADDR_SPACE_MANGLED##lN5__spv5Scope4FlagENS##SUBSTITUTION1##_19MemorySemanticsMask4FlagES##SUBSTITUTION2##_ll( \
+              pointer_int, scope, semantics, semantics, new_val_int,                                                                                          \
+              old_int) != old_int);                                                                                                                           \
+      return *(double *)&old_int;                                                                                                                             \
+    }                                                                                                                                                         \
+  }
+
+__CLC_NVVM_ATOMIC_ADD_DOUBLE_IMPL(, , _gen_, 0, 4)
+__CLC_NVVM_ATOMIC_ADD_DOUBLE_IMPL(__global, U3AS1, _global_, 1, 5)
+__CLC_NVVM_ATOMIC_ADD_DOUBLE_IMPL(__local, U3AS3, _shared_, 1, 5)
+
 #endif
 
 #undef __CLC_NVVM_ATOMIC_TYPES