Skip to content
This repository was archived by the owner on Apr 28, 2023. It is now read-only.

Commit 8da1e19

Browse files
Separate AUTOTUNER_COMMANDS for better readability
1 parent 6b319f5 commit 8da1e19

File tree

1 file changed

+39
-1
lines changed

1 file changed

+39
-1
lines changed
Lines changed: 39 additions & 1 deletion
Original file line numberDiff line numberDiff line change
@@ -1,14 +1,52 @@
1+
#
2+
#
3+
#
14
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/batchmatmul --gtest_filter="*.TransposedBatchMatMul" --B=500 --K=26 --M=72 --N=26 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedBatchMatMul_B_500_K_26_M_72_N_26.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/batchmatmul --gtest_filter="*.TransposedBatchMatMul" --B=500 --K=26 --M=72 --N=26 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedBatchMatMul_B_500_K_26_M_72_N_26.log 2>&1
5+
#
6+
#
7+
#
28
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=4 --F=4 --W=56 --H=56 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_4_F_4_W_56_H_56_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=4 --F=4 --W=56 --H=56 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_4_F_4_W_56_H_56_KW_3_KH_3.log 2>&1
9+
#
10+
#
11+
#
312
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=8 --F=8 --W=28 --H=28 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_8_F_8_W_28_H_28_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=8 --F=8 --W=28 --H=28 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_8_F_8_W_28_H_28_KW_3_KH_3.log 2>&1
13+
#
14+
#
15+
#
416
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=16 --F=16 --W=14 --H=14 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_16_F_16_W_14_H_14_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=16 --F=16 --W=14 --H=14 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_16_F_16_W_14_H_14_KW_3_KH_3.log 2>&1
17+
#
18+
#
19+
#
520
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=32 --F=32 --W=7 --H=7 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_32_F_32_W_7_H_7_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=32 --F=32 --W=7 --H=7 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_32_F_32_W_7_H_7_KW_3_KH_3.log 2>&1
21+
#
22+
#
23+
#
624
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=32 --N=256 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_32_N_256.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=32 --N=256 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_32_N_256.log 2>&1
25+
#
26+
#
27+
#
728
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=1024 --N=1024 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_1024_N_1024.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=1024 --N=1024 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_1024_N_1024.log 2>&1
29+
#
30+
#
31+
#
832
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=4096 --N=16384 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_4096_N_16384.log 2>&1 && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=4096 --N=16384 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_4096_N_16384.log 2>&1
33+
#
34+
#
35+
#
936
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.1LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/1LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.1LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/1LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
37+
#
38+
#
39+
#
1040
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.2LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/2LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.2LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/2LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
41+
#
42+
#
43+
#
1144
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.C3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/C3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.C3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/C3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
45+
#
46+
#
47+
#
1248
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP1" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/MLP1_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP1" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/MLP1_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
13-
# MLP3 can get stuck in a variety of cases, putting it at the end
49+
#
50+
#
51+
#
1452
echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/MLP3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/MLP3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1

0 commit comments

Comments
 (0)