Skip to content
This repository was archived by the owner on Apr 28, 2023. It is now read-only.

Commit eef8d22

Browse files
Split examples
This changeset split examples between small, simple, user-facing examples and longer, more complex, full-autotuning run benchmarks
1 parent 7d1a764 commit eef8d22

15 files changed

+85
-68
lines changed

.jenkins/run_test.sh

Lines changed: 4 additions & 4 deletions
Original file line numberDiff line numberDiff line change
@@ -12,8 +12,8 @@ source /etc/lsb-release
1212

1313
if [[ "$DISTRIB_RELEASE" == 14.04 ]]; then
1414
echo "Running TC backend tests"
15-
FILTER_OUT=example_MLP_model ./test.sh
16-
./build/examples/example_MLP_model --gtest_filter=-*2LUT*
15+
FILTER_OUT=MLP_model ./test.sh
16+
./build/benchmarks/MLP_model --gtest_filter=-*2LUT*
1717
if [[ $(conda --version | wc -c) -ne 0 ]]; then
1818
source activate tc-env
1919
echo "Running TC PyTorch tests"
@@ -28,7 +28,7 @@ if [[ "$DISTRIB_RELEASE" == 16.04 ]]; then
2828
./test_python/run_test.sh
2929
else
3030
echo "Running TC backend tests"
31-
FILTER_OUT=example_MLP_model ./test.sh
32-
./build/examples/example_MLP_model --gtest_filter=-*2LUT*
31+
FILTER_OUT=MLP_model ./test.sh
32+
./build/benchmarks/MLP_model --gtest_filter=-*2LUT*
3333
fi
3434
fi

CMakeLists.txt

Lines changed: 8 additions & 2 deletions
Original file line numberDiff line numberDiff line change
@@ -258,8 +258,14 @@ endif()
258258
enable_testing()
259259
add_subdirectory(test)
260260

261-
if (WITH_CAFFE2 AND WITH_CUDA)
261+
if (WITH_CUDA)
262262
add_subdirectory(examples)
263263
else()
264-
message(STATUS "Not building examples, caffe2 or CUDA not available")
264+
message(STATUS "Not building examples, CUDA not available")
265+
endif()
266+
267+
if (WITH_CAFFE2 AND WITH_CUDA)
268+
add_subdirectory(benchmarks)
269+
else()
270+
message(STATUS "Not building benchmarks, caffe2 or CUDA not available")
265271
endif()

benchmarks/CMakeLists.txt

Lines changed: 48 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,48 @@
1+
include_directories(.)
2+
include_directories(..)
3+
include_directories(../../include)
4+
5+
set(CMAKE_INSTALL_RPATH_USE_LINK_PATH TRUE)
6+
7+
# Needed to ensure reproducibility (proper cublas version) via call to
8+
# cublasGetVersion_v2.
9+
find_library(CUDA_CUBLAS_LIBRARIES cublas
10+
PATHS ${CUDA_TOOLKIT_ROOT_DIR}
11+
PATH_SUFFIXES lib lib64 targets/x86_64-linux/lib targets/x86_64-linux/lib/stubs)
12+
find_library(CUDA_CUDNN_LIBRARIES cudnn
13+
PATHS ${CUDNN_ROOT_DIR} ${CUDA_TOOLKIT_ROOT_DIR}
14+
PATH_SUFFIXES lib lib64)
15+
16+
################################################################################
17+
# Don't ask ... TODO: cleanup gtest
18+
################################################################################
19+
include_directories(${PROJECT_SOURCE_DIR}/third-party/googletest/googletest/include)
20+
set(GTEST_LIBS gtest gtest_main)
21+
22+
################################################################################
23+
# Examples
24+
################################################################################
25+
set(EXAMPLES_FILES
26+
batchmatmul
27+
group_convolution
28+
tmm
29+
MLP_model
30+
)
31+
foreach(i ${EXAMPLES_FILES})
32+
add_executable(${i} ${i}.cc)
33+
add_test(${i} ${i})
34+
target_link_libraries(
35+
${i}
36+
tc_autotuner
37+
tc_core
38+
tc_c2
39+
40+
${CUDA_CUBLAS_LIBRARIES}
41+
${CUDA_CUDNN_LIBRARIES}
42+
${GTEST_LIBS}
43+
${GFLAGS_LIBRARIES}
44+
${GLOG_LIBRARIES}
45+
46+
${ATEN_LIBRARIES}
47+
)
48+
endforeach()

examples/example_MLP_model.cc renamed to benchmarks/MLP_model.cc

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -28,7 +28,7 @@
2828

2929
#include "../test/test_harness.h"
3030
#include "../test/test_harness_aten_cuda.h"
31-
#include "example_fixture.h"
31+
#include "benchmark_fixture.h"
3232

3333
#include "tc/c2/context.h"
3434
#include "tc/core/cuda/cuda.h"

examples/example_batchmatmul.cc renamed to benchmarks/batchmatmul.cc

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -28,7 +28,7 @@
2828

2929
#include "../test/test_harness.h"
3030
#include "../test/test_harness_aten_cuda.h"
31-
#include "example_fixture.h"
31+
#include "benchmark_fixture.h"
3232

3333
#include "tc/c2/context.h"
3434
#include "tc/core/cuda/cuda.h"
File renamed without changes.

examples/example_group_convolution.cc renamed to benchmarks/group_convolution.cc

Lines changed: 1 addition & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -28,7 +28,7 @@
2828

2929
#include "../test/test_harness.h"
3030
#include "../test/test_harness_aten_cuda.h"
31-
#include "example_fixture.h"
31+
#include "benchmark_fixture.h"
3232

3333
#include "tc/c2/context.h"
3434
#include "tc/core/cuda/cuda.h"
File renamed without changes.
File renamed without changes.

benchmarks/scripts/AUTOTUNER_COMMANDS

Lines changed: 14 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,14 @@
1+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/batchmatmul --gtest_filter="*.TransposedBatchMatMul" --B=500 --K=26 --M=72 --N=26 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedBatchMatMul_B_500_K_26_M_72_N_26.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/batchmatmul --gtest_filter="*.TransposedBatchMatMul" --B=500 --K=26 --M=72 --N=26 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedBatchMatMul_B_500_K_26_M_72_N_26.log 2>&1
2+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=4 --F=4 --W=56 --H=56 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_4_F_4_W_56_H_56_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=4 --F=4 --W=56 --H=56 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_4_F_4_W_56_H_56_KW_3_KH_3.log 2>&1
3+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=8 --F=8 --W=28 --H=28 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_8_F_8_W_28_H_28_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=8 --F=8 --W=28 --H=28 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_8_F_8_W_28_H_28_KW_3_KH_3.log 2>&1
4+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=16 --F=16 --W=14 --H=14 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_16_F_16_W_14_H_14_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=16 --F=16 --W=14 --H=14 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_16_F_16_W_14_H_14_KW_3_KH_3.log 2>&1
5+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=32 --F=32 --W=7 --H=7 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_32_F_32_W_7_H_7_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=32 --F=32 --W=7 --H=7 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_32_F_32_W_7_H_7_KW_3_KH_3.log 2>&1
6+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=32 --N=256 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_32_N_256.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=32 --N=256 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_32_N_256.log 2>&1
7+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=1024 --N=1024 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_1024_N_1024.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=1024 --N=1024 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_1024_N_1024.log 2>&1
8+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=4096 --N=16384 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_4096_N_16384.log 2>&1 && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=4096 --N=16384 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_4096_N_16384.log 2>&1
9+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.1LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/1LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.1LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/1LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
10+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.2LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/2LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.2LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/2LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
11+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.C3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/C3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.C3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/C3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
12+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.MLP1" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/MLP1_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.MLP1" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/MLP1_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
13+
# MLP3 can get stuck in a variety of cases, putting it at the end
14+
echo CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.MLP3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/MLP3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/benchmarks/MLP_model --gtest_filter="*.MLP3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/MLP3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1

0 commit comments

Comments
 (0)