Merge pull request #1414 from JuliaGPU/tb/version

maleadt · web-flow · commit fb0a550ea8b9 · 2022-02-25T20:32:53.000+01:00
Drop support for CUDA 10.1 and below
diff --git a/.buildkite/pipeline.yml b/.buildkite/pipeline.yml
@@ -260,27 +260,6 @@ steps:
     if: build.message !~ /\[skip tests\]/ && !build.pull_request.draft
     timeout_in_minutes: 120
 
-  - label: "CUDA 10.1"
-    plugins:
-      - JuliaCI/julia#v1:
-          version: 1.6
-      - JuliaCI/julia-test#v1: ~
-      - JuliaCI/julia-coverage#v1:
-          codecov: true
-          dirs:
-            - src
-            - lib
-            - examples
-    agents:
-      queue: "juliagpu"
-      cuda: "10.1"
-      cap: "sm_75"
-    env:
-      JULIA_CUDA_VERSION: '10.1'
-      JULIA_CUDA_USE_BINARYBUILDER: 'true'
-    if: build.message !~ /\[skip tests\]/ && !build.pull_request.draft
-    timeout_in_minutes: 120
-
 
    # special tests
 
diff --git a/Artifacts.toml b/Artifacts.toml
@@ -1,129 +1,5 @@
 # CUDA
 
-[[CUDA]]
-arch = "x86_64"
-cuda = "9.0"
-git-tree-sha1 = "dece02c5c692d30e57bbbf08c32fb796bb723a53"
-lazy = true
-os = "macos"
-
-    [[CUDA.download]]
-    sha256 = "df896b2254231c3600460e9b0f928b66d3afe117b4bed29656b43a0415a32a37"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-apple-darwin-cuda+9.0.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "9.0"
-git-tree-sha1 = "0267859e1e69605ad53fc44027db413478bbef47"
-lazy = true
-libc = "glibc"
-os = "linux"
-
-    [[CUDA.download]]
-    sha256 = "46ef49b23bb1070270c595e2e48219788d080e3fcec4e7f59301921785dcc10f"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-linux-gnu-cuda+9.0.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "9.0"
-git-tree-sha1 = "120edb04e8793822232aec254fd853c3fd73e0f6"
-lazy = true
-os = "windows"
-
-    [[CUDA.download]]
-    sha256 = "154fb938f748055baf2bcc0176bb14348b04488531f7658af869135c7ab9c8f8"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-w64-mingw32-cuda+9.0.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "9.2"
-git-tree-sha1 = "ba2ce8e3de1877e78178e64d2fa42e19d09f3a4b"
-lazy = true
-os = "macos"
-
-    [[CUDA.download]]
-    sha256 = "82b01b75581dbbd0ddcc32ad88f2790fdc2d2ae8ad368bed12e065f39a1310d9"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-apple-darwin-cuda+9.2.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "9.2"
-git-tree-sha1 = "db04ad24a9d0e49d9b9a55fb30e3428b0c1588ca"
-lazy = true
-libc = "glibc"
-os = "linux"
-
-    [[CUDA.download]]
-    sha256 = "2c32943953f148ac15b3854f821b71a7bb5fca53b722c07758e1b974f67066c2"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-linux-gnu-cuda+9.2.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "9.2"
-git-tree-sha1 = "62fd7cb750233da012252650b69d79afe383ff49"
-lazy = true
-os = "windows"
-
-    [[CUDA.download]]
-    sha256 = "1d8b6ae5f31a1790a812a614d28300407f3f435346e8047a06105ad15bb4bb3e"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-w64-mingw32-cuda+9.2.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "10.0"
-git-tree-sha1 = "52b7a2a1a93b057637c056797523d86dbe5e02be"
-lazy = true
-os = "macos"
-
-    [[CUDA.download]]
-    sha256 = "bffb7a21701daa9b75ef888a7cfebf045ceec363b63b7fc840a1be41dd97eb94"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-apple-darwin-cuda+10.0.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "10.0"
-git-tree-sha1 = "70690cde550c5bac83be1738bc612adb4768def8"
-lazy = true
-libc = "glibc"
-os = "linux"
-
-    [[CUDA.download]]
-    sha256 = "9320d913fa9f29151b1bb9dd78202004c9dc61203816f960369fbe4c81bdd9e3"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-linux-gnu-cuda+10.0.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "10.0"
-git-tree-sha1 = "5dc75d2507d2886ee5c309d7a9e4c2ecd23d0675"
-lazy = true
-os = "windows"
-
-    [[CUDA.download]]
-    sha256 = "e97021f72258fea105c8e51c4b565dc8439e1be6489c3fa52851dadd73fd87f9"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-w64-mingw32-cuda+10.0.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "10.1"
-git-tree-sha1 = "ebf136c22650f0b8d32a6fda896026cc53a06098"
-lazy = true
-os = "macos"
-
-    [[CUDA.download]]
-    sha256 = "87b1a50dbb2db4ac2611e1884445c6dd4051aff8c8cdb59dbfc8dde17fd36c2a"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-apple-darwin-cuda+10.1.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "10.1"
-git-tree-sha1 = "0549466c4aab1487f889291765a95d728870df83"
-lazy = true
-libc = "glibc"
-os = "linux"
-
-    [[CUDA.download]]
-    sha256 = "9865dad0638b992461cd42ff264b137aeaacf8527ae17c73a8e0cb11023de285"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-linux-gnu-cuda+10.1.tar.gz"
-[[CUDA]]
-arch = "x86_64"
-cuda = "10.1"
-git-tree-sha1 = "a3cdc71ed971c74d70629e78ac6eae95f0187d4a"
-lazy = true
-os = "windows"
-
-    [[CUDA.download]]
-    sha256 = "f58b3ace896dd58a9b19f15dd71d54ff21dea30b8b3110092388ebe6cb923852"
-    url = "https://github.com/JuliaBinaryWrappers/CUDA_loader_jll.jl/releases/download/CUDA_loader-v0.2.1+4/CUDA_loader.v0.2.1.x86_64-w64-mingw32-cuda+10.1.tar.gz"
 [[CUDA]]
 arch = "aarch64"
 cuda = "10.2"
diff --git a/deps/compatibility.jl b/deps/compatibility.jl
@@ -50,6 +50,7 @@ const cuda_cap_db = Dict(
     v"7.5" => v"10.0":highest,
     v"8.0" => v"11.0":highest,
     v"8.6" => v"11.1":highest,
+    v"8.7" => v"11.4":highest,
 )
 
 function cuda_cap_support(ver::VersionNumber)
@@ -95,6 +96,10 @@ const cuda_ptx_db = Dict(
     v"7.0" => v"11.0":highest,
     v"7.1" => v"11.1":highest,
     v"7.2" => v"11.2":highest,
+    v"7.3" => v"11.3":highest,
+    v"7.4" => v"11.4":highest,
+    v"7.5" => v"11.5":highest,
+    v"7.6" => v"11.6":highest,
 )
 
 function cuda_ptx_support(ver::VersionNumber)
@@ -128,6 +133,7 @@ const llvm_cap_db = Dict(
     v"7.2" => v"7.0":highest,
     v"7.5" => v"8.0":highest,
     v"8.0" => v"11.0":highest,
+    v"8.6" => v"13.0":highest,
 )
 
 function llvm_cap_support(ver::VersionNumber)
@@ -159,6 +165,11 @@ const llvm_ptx_db = Dict(
     v"6.4" => v"9.0":highest,
     v"6.5" => v"11.0":highest,
     v"7.0" => v"11.0":highest,
+    v"7.1" => v"13.0":highest,
+    v"7.2" => v"13.0":highest,
+    v"7.3" => v"14.0":highest,
+    v"7.4" => v"14.0":highest,
+    v"7.5" => v"14.0":highest,
 )
 
 function llvm_ptx_support(ver::VersionNumber)
diff --git a/lib/cublas/wrappers.jl b/lib/cublas/wrappers.jl
@@ -103,17 +103,9 @@ for (fname, elty) in ((:cublasDscal_v2,:Float64),
     end
 end
 function scal!(n::Integer, alpha::Number, x::StridedCuArray{Float16})
-    if version() > v"10.1"
-        α = convert(Float32, alpha)
-        cublasScalEx(handle(), n, Ref{Float32}(α), Float32, x, Float16, stride(x, 1), Float32)
-        return x
-    else
-        wide_x = widen.(x)
-        scal!(n, alpha, wide_x)
-        thin_x = convert(typeof(x), wide_x)
-        copyto!(x, thin_x)
-        return x
-    end
+    α = convert(Float32, alpha)
+    cublasScalEx(handle(), n, Ref{Float32}(α), Float32, x, Float16, stride(x, 1), Float32)
+    return x
 end
 # specific variants in case x is complex and alpha is real
 for (fname, elty, celty) in ((:cublasCsscal_v2, :Float32, :ComplexF32),
@@ -153,13 +145,9 @@ for (jname, fname, elty) in ((:dot,:cublasDdot_v2,:Float64),
     end
 end
 function dot(n::Integer, x::StridedCuArray{Float16}, y::StridedCuArray{Float16})
-    if version() > v"10.1"
-        result = Ref{Float16}()
-        cublasDotEx(handle(), n, x, Float16, stride(x, 1), y, Float16, stride(y, 1), result, Float16, Float32)
-        return result[]
-    else
-        return convert(Float16, dot(n, convert(CuArray{Float32}, x), convert(CuArray{Float32}, y)))
-    end
+    result = Ref{Float16}()
+    cublasDotEx(handle(), n, x, Float16, stride(x, 1), y, Float16, stride(y, 1), result, Float16, Float32)
+    return result[]
 end
 function dotc(n::Integer, x::StridedCuArray{ComplexF16}, y::StridedCuArray{ComplexF16})
     return convert(ComplexF16, dotc(n, convert(CuArray{ComplexF32}, x), convert(CuArray{ComplexF32}, y)))
@@ -185,15 +173,9 @@ end
 nrm2(x::StridedCuArray) = nrm2(length(x), x)
 
 function nrm2(n::Integer, x::StridedCuArray{Float16})
-    if version() > v"10.1"
-        result = Ref{Float16}()
-        cublasNrm2Ex(handle(), n, x, Float16, stride(x, 1), result, Float16, Float32)
-        return result[]
-    else
-        wide_x = widen.(x)
-        nrm    = nrm2(n, wide_x)
-        return convert(Float16, nrm)
-    end
+    result = Ref{Float16}()
+    cublasNrm2Ex(handle(), n, x, Float16, stride(x, 1), result, Float16, Float32)
+    return result[]
 end
 function nrm2(n::Integer, x::StridedCuArray{ComplexF16})
     wide_x = widen.(x)
@@ -233,18 +215,9 @@ for (fname, elty) in ((:cublasDaxpy_v2,:Float64),
 end
 
 function axpy!(n::Integer, alpha::Number, dx::StridedCuArray{Float16}, dy::StridedCuArray{Float16})
-    if version() >= v"10.1"
-        α = convert(Float32, alpha)
-        cublasAxpyEx(handle(), n, Ref{Float32}(α), Float32, dx, Float16, stride(dx, 1), dy, Float16, stride(dy, 1), Float32)
-        return dy
-    else
-        wide_x = widen.(dx)
-        wide_y = widen.(dy)
-        axpy!(n, alpha, wide_x, wide_y)
-        thin_y = convert(typeof(dy), wide_y)
-        copyto!(dy, thin_y)
-        return dy
-    end
+    α = convert(Float32, alpha)
+    cublasAxpyEx(handle(), n, Ref{Float32}(α), Float32, dx, Float16, stride(dx, 1), dy, Float16, stride(dy, 1), Float32)
+    return dy
 end
 function axpy!(n::Integer, alpha::Number, dx::StridedCuArray{ComplexF16}, dy::StridedCuArray{ComplexF16})
     wide_x = widen.(dx)
diff --git a/lib/cusparse/conversions.jl b/lib/cusparse/conversions.jl
@@ -121,36 +121,27 @@ function CuSparseMatrixCSR{T}(S::Adjoint{T, <:CuSparseMatrixCSC{T}}) where {T <:
 end
 
 # by flipping rows and columns, we can use that to get CSC to CSR too
-for (fname,elty) in ((:cusparseScsr2csc, :Float32),
-                     (:cusparseDcsr2csc, :Float64),
-                     (:cusparseCcsr2csc, :ComplexF32),
-                     (:cusparseZcsr2csc, :ComplexF64))
+for elty in (Float32, Float64, ComplexF32, ComplexF64)
     @eval begin
         function CuSparseMatrixCSC{$elty}(csr::CuSparseMatrixCSR{$elty}; inda::SparseChar='O')
             m,n = size(csr)
             colPtr = CUDA.zeros(Cint, n+1)
             rowVal = CUDA.zeros(Cint, nnz(csr))
             nzVal = CUDA.zeros($elty, nnz(csr))
-            if version() >= v"10.2"
-                # TODO: algorithm configuratibility?
-                function bufferSize()
-                    out = Ref{Csize_t}(1)
-                    cusparseCsr2cscEx2_bufferSize(handle(), m, n, nnz(csr), nonzeros(csr),
-                        csr.rowPtr, csr.colVal, nzVal, colPtr, rowVal,
-                        $elty, CUSPARSE_ACTION_NUMERIC, inda,
-                        CUSPARSE_CSR2CSC_ALG1, out)
-                    return out[]
-                end
-                with_workspace(bufferSize) do buffer
-                    cusparseCsr2cscEx2(handle(), m, n, nnz(csr), nonzeros(csr),
-                        csr.rowPtr, csr.colVal, nzVal, colPtr, rowVal,
-                        $elty, CUSPARSE_ACTION_NUMERIC, inda,
-                        CUSPARSE_CSR2CSC_ALG1, buffer)
-                end
-            else
-                $fname(handle(), m, n, nnz(csr), nonzeros(csr),
-                    csr.rowPtr, csr.colVal, nzVal, rowVal,
-                    colPtr, CUSPARSE_ACTION_NUMERIC, inda)
+            # TODO: algorithm configuratibility?
+            function bufferSize()
+                out = Ref{Csize_t}(1)
+                cusparseCsr2cscEx2_bufferSize(handle(), m, n, nnz(csr), nonzeros(csr),
+                    csr.rowPtr, csr.colVal, nzVal, colPtr, rowVal,
+                    $elty, CUSPARSE_ACTION_NUMERIC, inda,
+                    CUSPARSE_CSR2CSC_ALG1, out)
+                return out[]
+            end
+            with_workspace(bufferSize) do buffer
+                cusparseCsr2cscEx2(handle(), m, n, nnz(csr), nonzeros(csr),
+                    csr.rowPtr, csr.colVal, nzVal, colPtr, rowVal,
+                    $elty, CUSPARSE_ACTION_NUMERIC, inda,
+                    CUSPARSE_CSR2CSC_ALG1, buffer)
             end
             CuSparseMatrixCSC(colPtr,rowVal,nzVal,size(csr))
         end
@@ -160,26 +151,20 @@ for (fname,elty) in ((:cusparseScsr2csc, :Float32),
             rowPtr = CUDA.zeros(Cint,m+1)
             colVal = CUDA.zeros(Cint,nnz(csc))
             nzVal  = CUDA.zeros($elty,nnz(csc))
-            if version() >= v"10.2"
-                # TODO: algorithm configuratibility?
-                function bufferSize()
-                    out = Ref{Csize_t}(1)
-                    cusparseCsr2cscEx2_bufferSize(handle(), n, m, nnz(csc), nonzeros(csc),
-                        csc.colPtr, rowvals(csc), nzVal, rowPtr, colVal,
-                        $elty, CUSPARSE_ACTION_NUMERIC, inda,
-                        CUSPARSE_CSR2CSC_ALG1, out)
-                    return out[]
-                end
-                with_workspace(bufferSize) do buffer
-                    cusparseCsr2cscEx2(handle(), n, m, nnz(csc), nonzeros(csc),
-                        csc.colPtr, rowvals(csc), nzVal, rowPtr, colVal,
-                        $elty, CUSPARSE_ACTION_NUMERIC, inda,
-                        CUSPARSE_CSR2CSC_ALG1, buffer)
-                end
-            else
-                $fname(handle(), n, m, nnz(csc), nonzeros(csc),
-                    csc.colPtr, rowvals(csc), nzVal, colVal,
-                    rowPtr, CUSPARSE_ACTION_NUMERIC, inda)
+            # TODO: algorithm configuratibility?
+            function bufferSize()
+                out = Ref{Csize_t}(1)
+                cusparseCsr2cscEx2_bufferSize(handle(), n, m, nnz(csc), nonzeros(csc),
+                    csc.colPtr, rowvals(csc), nzVal, rowPtr, colVal,
+                    $elty, CUSPARSE_ACTION_NUMERIC, inda,
+                    CUSPARSE_CSR2CSC_ALG1, out)
+                return out[]
+            end
+            with_workspace(bufferSize) do buffer
+                cusparseCsr2cscEx2(handle(), n, m, nnz(csc), nonzeros(csc),
+                    csc.colPtr, rowvals(csc), nzVal, rowPtr, colVal,
+                    $elty, CUSPARSE_ACTION_NUMERIC, inda,
+                    CUSPARSE_CSR2CSC_ALG1, buffer)
             end
             CuSparseMatrixCSR(rowPtr,colVal,nzVal,size(csc))
         end
@@ -197,7 +182,7 @@ for (elty, welty) in ((:Float16, :Float32),
             rowVal = CUDA.zeros(Cint, nnz(csr))
             nzVal = CUDA.zeros($elty, nnz(csr))
             # TODO: algorithm configuratibility?
-            if version() >= v"10.2" && $elty == Float16 #broken for ComplexF16?
+            if $elty == Float16 #broken for ComplexF16?
                 function bufferSize()
                     out = Ref{Csize_t}(1)
                     cusparseCsr2cscEx2_bufferSize(handle(), m, n, nnz(csr), nonzeros(csr),
@@ -225,7 +210,7 @@ for (elty, welty) in ((:Float16, :Float32),
             rowPtr = CUDA.zeros(Cint,m+1)
             colVal = CUDA.zeros(Cint,nnz(csc))
             nzVal  = CUDA.zeros($elty,nnz(csc))
-            if version() >= v"10.2" && $elty == Float16 #broken for ComplexF16?
+            if $elty == Float16 #broken for ComplexF16?
                 # TODO: algorithm configuratibility?
                 function bufferSize()
                     out = Ref{Csize_t}(1)
diff --git a/src/initialization.jl b/src/initialization.jl
@@ -62,8 +62,8 @@ end
         return
     end
 
-    if version() < v"10.1"
-        @warn "This version of CUDA.jl only supports NVIDIA drivers for CUDA 10.1 or higher (yours is for CUDA $(version()))"
+    if version() < v"10.2"
+        @warn "This version of CUDA.jl only supports NVIDIA drivers for CUDA 10.2 or higher (yours is for CUDA $(version()))"
     end
 
     if version() < v"11.2"