add wait on device and generic Event constructor

vchuravy · vchuravy · commit 9c3ed386de5b · 2020-03-05T15:20:02.000-05:00
```
ev = Event(CUDA())
ev = kernel(..., dependencies(ev,))
wait(CUDA(), ev)
```
diff --git a/src/KernelAbstractions.jl b/src/KernelAbstractions.jl
@@ -2,7 +2,7 @@ module KernelAbstractions
 
 export @kernel
 export @Const, @localmem, @private, @uniform, @synchronize, @index, groupsize
-export Device, GPU, CPU, CUDA 
+export Device, GPU, CPU, CUDA, Event
 
 using MacroTools
 using StaticArrays
diff --git a/src/backends/cpu.jl b/src/backends/cpu.jl
@@ -1,8 +1,15 @@
 struct CPUEvent <: Event
-    task::Core.Task
+    task::Union{Nothing, Core.Task}
 end
 
-function wait(ev::CPUEvent, progress=nothing)
+function Event(::CPU)
+    return CPUEvent(nothing)
+end
+
+wait(ev::CPUEvent, progress=nothing) = wait(CPU(), ev, progress)
+function wait(::CPU, ev::CPUEvent, progress=nothing)
+    ev.task === nothing && return
+    
     if progress === nothing
         wait(ev.task)
     else
@@ -50,7 +57,7 @@ function __run(obj, ndrange, iterspace, args, dependencies)
             !isempty(cpu_tasks) && Base.sync_end(cpu_tasks)
             for event in dependencies
                 if !(event isa CPUEvent)
-                    wait(event, ()->yield())
+                    wait(CPU(), event, ()->yield())
                 end
             end
         end
diff --git a/src/backends/cuda.jl b/src/backends/cuda.jl
@@ -47,7 +47,16 @@ end
 struct CudaEvent <: Event
     event::CuEvent
 end
-function wait(ev::CudaEvent, progress=nothing)
+
+function Event(::CUDA)
+    stream = CUDAdrv.CuDefaultStream()
+    event = CuEvent(CUDAdrv.EVENT_DISABLE_TIMING)
+    CUDAdrv.record(event, stream)
+    CudaEvent(event)
+end
+
+wait(ev::CudaEvent, progress=nothing) = wait(CPU(), ev, progress)
+function wait(::CPU, ev::CudaEvent, progress=nothing)
     if progress === nothing
         CUDAdrv.synchronize(ev.event)
     else
@@ -58,6 +67,19 @@ function wait(ev::CudaEvent, progress=nothing)
     end
 end
 
+# Use this to synchronize between computation using the CuDefaultStream
+wait(::CUDA, ev::CudaEvent, progress=nothing) = __enqueue_wait(ev, CUDAdrv.CuDefaultStream())
+
+# There is no efficient wait for CPU->GPU synchronization, so instead we
+# do a CPU wait, and therefore block anyone from submitting more work.
+# We maybe could do a spinning wait on the GPU and atomic flag to signal from the CPU,
+# but which stream would we target?
+wait(::CUDA, ev::CPUEvent,  progress=nothing) = wait(CPU(), ev, progress)
+
+function __enqueue_wait(ev::CudaEvent, stream::CuStream)
+    CUDAdrv.wait(ev.event, stream)
+end
+
 function (obj::Kernel{CUDA})(args...; ndrange=nothing, dependencies=nothing, workgroupsize=nothing)
     if ndrange isa Integer
         ndrange = (ndrange,)
@@ -73,12 +95,12 @@ function (obj::Kernel{CUDA})(args...; ndrange=nothing, dependencies=nothing, wor
     if dependencies !== nothing
         for event in dependencies
             if event isa CudaEvent
-                CUDAdrv.wait(event.event, stream)
+                __enqueue_wait(event, stream)
             end
         end
         for event in dependencies
             if !(event isa CudaEvent)
-                wait(event, ()->yield())
+                wait(CUDA(), event, ()->yield())
             end
         end
     end