Updated OpenCL-Wrapper

ProjectPhysX · ProjectPhysX · commit 2c3173c52630 · 2024-05-08T18:53:06.000+02:00
diff --git a/src/main.cpp b/src/main.cpp
@@ -33,24 +33,12 @@ void benchmark_device(const Device_Info& device_info) {
 	;
 	print("| Compiling ...                                                               |");
 	Device device(device_info, defines+get_opencl_c_code());
-
 	Memory<float> buffer(device, N, M);
-	Kernel kernel_double(device, N, "kernel_double", buffer);
-	Kernel kernel_float(device, N, "kernel_float", buffer);
-	Kernel kernel_half(device, N, "kernel_half", buffer);
-	Kernel kernel_long(device, N, "kernel_long", buffer);
-	Kernel kernel_int(device, N, "kernel_int", buffer);
-	Kernel kernel_short(device, N, "kernel_short", buffer);
-	Kernel kernel_char(device, N, "kernel_char", buffer);
-	Kernel kernel_coalesced_write(device, N, "kernel_coalesced_write" , buffer);
-	Kernel kernel_coalesced_read(device, N, "kernel_coalesced_read"  , buffer);
-	Kernel kernel_misaligned_write(device, N, "kernel_misaligned_write", buffer);
-	Kernel kernel_misaligned_read(device, N, "kernel_misaligned_read" , buffer);
-
 	//print_info("Device mormory usage: "+to_string(device.info.memory_used)+" MB");
 
 	if(device.info.is_fp64_capable) {
 		print("| Benchmarking ...                                                            |");
+		Kernel kernel_double(device, N, "kernel_double", buffer);
 		for(uint i=0u; i<N_kernel; i++) {
 			clock.start();
 			kernel_double.run();
@@ -63,6 +51,7 @@ void benchmark_device(const Device_Info& device_info) {
 	}
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_float(device, N, "kernel_float", buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_float.run();
@@ -73,6 +62,7 @@ void benchmark_device(const Device_Info& device_info) {
 
 	if(device.info.is_fp16_capable) {
 		print("| Benchmarking ...                                                            |");
+		Kernel kernel_half(device, N, "kernel_half", buffer);
 		for(uint i=0u; i<N_kernel; i++) {
 			clock.start();
 			kernel_half.run();
@@ -85,6 +75,7 @@ void benchmark_device(const Device_Info& device_info) {
 	}
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_long(device, N, "kernel_long", buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_long.run();
@@ -94,6 +85,7 @@ void benchmark_device(const Device_Info& device_info) {
 	println("\r| INT64 compute "+alignr(45u, to_string(flops_long, 3u))+"  TIOPs/s "+fraction(100.0f*flops_long/device.info.tflops)+" |");
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_int(device, N, "kernel_int", buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_int.run();
@@ -103,6 +95,7 @@ void benchmark_device(const Device_Info& device_info) {
 	println("\r| INT32 compute "+alignr(45u, to_string(flops_int, 3u))+"  TIOPs/s "+fraction(100.0f*flops_int/device.info.tflops)+" |");
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_short(device, N, "kernel_short", buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_short.run();
@@ -112,6 +105,7 @@ void benchmark_device(const Device_Info& device_info) {
 	println("\r| INT16 compute "+alignr(45u, to_string(flops_short, 3u))+"  TIOPs/s "+fraction(100.0f*flops_short/device.info.tflops)+" |");
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_char(device, N, "kernel_char", buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_char.run();
@@ -121,11 +115,13 @@ void benchmark_device(const Device_Info& device_info) {
 	println("\r| INT8  compute "+alignr(45u, to_string(flops_char, 3u))+"  TIOPs/s "+fraction(100.0f*flops_char/device.info.tflops)+" |");
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_coalesced_write(device, N, "kernel_coalesced_write" , buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_coalesced_write.run();
 		time_cw = fmin(clock.stop(), time_cw);
 	}
+	Kernel kernel_coalesced_read(device, N, "kernel_coalesced_read"  , buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_coalesced_read.run();
@@ -135,11 +131,13 @@ void benchmark_device(const Device_Info& device_info) {
 	println("\r| Memory Bandwidth ( coalesced      write) "+alignr(29u, to_string(4.0f*(float)N*(float)M/(float) time_cw                   *1E-9f, 2u))+" GB/s |");
 
 	print("| Benchmarking ...                                                            |");
+	Kernel kernel_misaligned_write(device, N, "kernel_misaligned_write", buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_misaligned_write.run();
 		time_mw = fmin(clock.stop(), time_mw);
 	}
+	Kernel kernel_misaligned_read(device, N, "kernel_misaligned_read" , buffer);
 	for(uint i=0u; i<N_kernel; i++) {
 		clock.start();
 		kernel_misaligned_read.run();
diff --git a/src/opencl.hpp b/src/opencl.hpp
@@ -339,14 +339,10 @@ template<typename T> class Memory {
 		delete_host_buffer();
 	}
 	inline void reset(const T value=(T)0) {
-		if(host_buffer_exists) {
-			std::fill(host_buffer, host_buffer+range(), value); // faster than "for(ulong i=0ull; i<range(); i++) host_buffer[i] = value;"
-		}
+		//if(device_buffer_exists) cl_queue.enqueueFillBuffer(device_buffer, value, 0ull, capacity()); // faster than "write_to_device();"
+		if(host_buffer_exists) std::fill(host_buffer, host_buffer+range(), value); // faster than "for(ulong i=0ull; i<range(); i++) host_buffer[i] = value;"
 		write_to_device(); // enqueueFillBuffer is broken for large buffers on Nvidia GPUs!
-		//if(device_buffer_exists) {
-		//	cl_queue.enqueueFillBuffer(device_buffer, value, 0ull, capacity()); // faster than "write_to_device();"
-		//	cl_queue.finish();
-		//}
+		//if(device_buffer_exists) cl_queue.finish();
 	}
 	inline const ulong length() const { return N; }
 	inline const uint dimensions() const { return d; }
@@ -466,14 +462,21 @@ class Kernel {
 private:
 	ulong N = 0ull; // kernel range
 	uint number_of_parameters = 0u;
+	string name = "";
 	cl::Kernel cl_kernel;
 	cl::NDRange cl_range_global, cl_range_local;
 	cl::CommandQueue cl_queue;
+	inline void check_for_errors(const int error) {
+		if(error==-48) print_error("There is no OpenCL kernel with name \""+name+"(...)\" in the OpenCL C code! Check spelling!");
+		if(error<-48&&error>-53) print_error("Parameters for OpenCL kernel \""+name+"(...)\" don't match between C++ and OpenCL C!");
+		if(error==-54) print_error("Workgrop size "+to_string(WORKGROUP_SIZE)+" for OpenCL kernel \""+name+"(...)\" is invalid!");
+		if(error!=0) print_error("OpenCL kernel \""+name+"(...)\" failed with error code "+to_string(error)+"!");
+	}
 	template<typename T> inline void link_parameter(const uint position, const Memory<T>& memory) {
-		cl_kernel.setArg(position, memory.get_cl_buffer());
+		check_for_errors(cl_kernel.setArg(position, memory.get_cl_buffer()));
 	}
 	template<typename T> inline void link_parameter(const uint position, const T& constant) {
-		cl_kernel.setArg(position, sizeof(T), (void*)&constant);
+		check_for_errors(cl_kernel.setArg(position, sizeof(T), (void*)&constant));
 	}
 	inline void link_parameters(const uint starting_position) {
 		number_of_parameters = max(number_of_parameters, starting_position);
@@ -484,14 +487,15 @@ class Kernel {
 	}
 public:
 	template<class... T> inline Kernel(const Device& device, const ulong N, const string& name, const T&... parameters) { // accepts Memory<T> objects and fundamental data type constants
-		if(!device.is_initialized()) print_error("No Device selected. Call Device constructor.");
+		if(!device.is_initialized()) print_error("No OpenCL Device selected. Call Device constructor.");
+		this->name = name;
 		cl_kernel = cl::Kernel(device.get_cl_program(), name.c_str());
 		link_parameters(number_of_parameters, parameters...); // expand variadic template to link kernel parameters
 		set_ranges(N);
 		cl_queue = device.get_cl_queue();
 	}
 	template<class... T> inline Kernel(const Device& device, const ulong N, const uint workgroup_size, const string& name, const T&... parameters) { // accepts Memory<T> objects and fundamental data type constants
-		if(!device.is_initialized()) print_error("No Device selected. Call Device constructor.");
+		if(!device.is_initialized()) print_error("No OpenCL Device selected. Call Device constructor.");
 		cl_kernel = cl::Kernel(device.get_cl_program(), name.c_str());
 		link_parameters(number_of_parameters, parameters...); // expand variadic template to link kernel parameters
 		set_ranges(N, (ulong)workgroup_size);
@@ -516,7 +520,7 @@ class Kernel {
 	}
 	inline Kernel& enqueue_run(const uint t=1u, const vector<Event>* event_waitlist=nullptr, Event* event_returned=nullptr) {
 		for(uint i=0u; i<t; i++) {
-			cl_queue.enqueueNDRangeKernel(cl_kernel, cl::NullRange, cl_range_global, cl_range_local, event_waitlist, event_returned);
+			check_for_errors(cl_queue.enqueueNDRangeKernel(cl_kernel, cl::NullRange, cl_range_global, cl_range_local, event_waitlist, event_returned));
 		}
 		return *this;
 	}