|
| 1 | +# |
| 2 | +# |
| 3 | +# |
1 | 4 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/batchmatmul --gtest_filter="*.TransposedBatchMatMul" --B=500 --K=26 --M=72 --N=26 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedBatchMatMul_B_500_K_26_M_72_N_26.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/batchmatmul --gtest_filter="*.TransposedBatchMatMul" --B=500 --K=26 --M=72 --N=26 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedBatchMatMul_B_500_K_26_M_72_N_26.log 2>&1
|
| 5 | +# |
| 6 | +# |
| 7 | +# |
2 | 8 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=4 --F=4 --W=56 --H=56 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_4_F_4_W_56_H_56_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=4 --F=4 --W=56 --H=56 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_4_F_4_W_56_H_56_KW_3_KH_3.log 2>&1
|
| 9 | +# |
| 10 | +# |
| 11 | +# |
3 | 12 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=8 --F=8 --W=28 --H=28 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_8_F_8_W_28_H_28_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=8 --F=8 --W=28 --H=28 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_8_F_8_W_28_H_28_KW_3_KH_3.log 2>&1
|
| 13 | +# |
| 14 | +# |
| 15 | +# |
4 | 16 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=16 --F=16 --W=14 --H=14 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_16_F_16_W_14_H_14_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=16 --F=16 --W=14 --H=14 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_16_F_16_W_14_H_14_KW_3_KH_3.log 2>&1
|
| 17 | +# |
| 18 | +# |
| 19 | +# |
5 | 20 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=32 --F=32 --W=7 --H=7 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_32_F_32_W_7_H_7_KW_3_KH_3.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/group_convolution --gtest_filter="*.GroupConvolution" --N=32 --G=32 --C=32 --F=32 --W=7 --H=7 --KW=3 --KH=3 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/GroupConvolution_N_32_G_32_C_32_F_32_W_7_H_7_KW_3_KH_3.log 2>&1
|
| 21 | +# |
| 22 | +# |
| 23 | +# |
6 | 24 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=32 --N=256 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_32_N_256.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=32 --N=256 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_32_N_256.log 2>&1
|
| 25 | +# |
| 26 | +# |
| 27 | +# |
7 | 28 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=1024 --N=1024 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_1024_N_1024.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=1024 --N=1024 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_1024_N_1024.log 2>&1
|
| 29 | +# |
| 30 | +# |
| 31 | +# |
8 | 32 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=4096 --N=16384 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_4096_N_16384.log 2>&1 && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/tmm --gtest_filter="*.TransposedMatMul" --M=128 --K=4096 --N=16384 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/TransposedMatMul_M_128_K_4096_N_16384.log 2>&1
|
| 33 | +# |
| 34 | +# |
| 35 | +# |
9 | 36 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.1LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/1LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.1LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/1LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
|
| 37 | +# |
| 38 | +# |
| 39 | +# |
10 | 40 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.2LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/2LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.2LUT" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/2LUT_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
|
| 41 | +# |
| 42 | +# |
| 43 | +# |
11 | 44 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.C3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/C3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.C3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/C3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
|
| 45 | +# |
| 46 | +# |
| 47 | +# |
12 | 48 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP1" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/MLP1_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP1" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/MLP1_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
|
13 |
| -# MLP3 can get stuck in a variety of cases, putting it at the end |
| 49 | +# |
| 50 | +# |
| 51 | +# |
14 | 52 | echo CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_devices="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ > ${LOG_DIR}/autotuner/MLP3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log && CUDA_LAUNCH_BLOCKING=1 ./build/tc/benchmarks/MLP_model --gtest_filter="*.MLP3" --B=128 --D=64 --L1=50 --E1=10000000 --L2=50 --E2=10000000 --WX=1000 --WY=1024 --M=2000 --N=128 --O=64 --P=32 --Q=2 --debug_tuner=true --dump_cuda=true --disable_version_checks=true --log_dir=${LOG_DIR} --autotune=true --tuner_gen_log_generations=true --tuner_threads=${TUNER_THREADS} --tuner_gpus="${TUNER_GPUS}" --save_tuner_proto_prefix=${LOG_DIR}/autotuner/ --tuner_gen_restore_from_proto=0 >> ${LOG_DIR}/autotuner/MLP3_B_128_D_64_L1_50_E1_10000000_L2_50_E2_10000000_WX_1000_WY_1024_M_2000_N_128_O_64_P_32_Q_2.log 2>&1
|
0 commit comments