Resolve comments

wsmoses · wsmoses · commit 6be0ca0ca02f · 2018-03-29T06:08:57.000-04:00
diff --git a/build.sh b/build.sh
@@ -17,6 +17,7 @@ else
 fi
 WITH_PYTHON_C2=${WITH_PYTHON_C2:=OFF}
 WITH_NNPACK=${WITH_NNPACK:=OFF}
+WITH_TAPIR=${WITH_TAPIR:=ON}
 PYTHON=${PYTHON:="`which python3`"}
 PROTOC=${PROTOC:="`which protoc`"}
 CORES=${CORES:=32}
@@ -401,6 +402,7 @@ function install_tc() {
     rm -rf *
     VERBOSE=${VERBOSE} ${CMAKE_VERSION} -DWITH_CAFFE2=${WITH_CAFFE2} \
         -DCMAKE_EXPORT_COMPILE_COMMANDS=ON \
+        -DWITH_TAPIR=${WITH_TAPIR} \
         -DPYTHON_EXECUTABLE=${PYTHON} \
         -DHALIDE_PREFIX=${INSTALL_PREFIX} \
         -DCMAKE_BUILD_TYPE=${BUILD_TYPE} \
diff --git a/test/CMakeLists.txt b/test/CMakeLists.txt
@@ -100,7 +100,6 @@ foreach(i ${CORE_TEST_FILES})
   target_link_libraries(${i} ${GOOGLE_LIBS} tc_core_cuda_no_sdk)
 endforeach()
 
-
 add_executable(test_mapper_llvm test_mapper_llvm.cc)
 add_test(test_mapper_llvm test_mapper_llvm)
 target_link_libraries(
@@ -112,6 +111,19 @@ target_link_libraries(
 
   tc_core_cpu tc_lang)
 
+if (WITH_TAPIR)
+  add_executable(test_mapper_tapir test_mapper_tapir.cc)
+  add_test(test_mapper_tapir test_mapper_tapir)
+  target_link_libraries(
+    test_mapper_tapir
+
+    ${GOOGLE_LIBS}
+    ${ATEN_LIBRARIES}
+    -lLLVM
+
+    tc_core_cpu tc_lang)
+endif()
+
 ################################################################################
 # TensorComprehensions tests
 # No real need for NVCC if we only use NVRTC
diff --git a/test/test_mapper_llvm.cc b/test/test_mapper_llvm.cc
@@ -51,179 +51,9 @@ def fun(float(N, M) A, float(N, M) B) -> (C) {
   auto context = scop->makeContext(
       std::unordered_map<std::string, int>{{"N", N}, {"M", M}});
   scop = Scop::makeSpecializedScop(*scop, context);
-  Jit jit;
-  jit.codegenScop("kernel_anon", *scop);
-  auto fptr =
-      (void (*)(float*, float*, float*))jit.getSymbolAddress("kernel_anon");
-
-  at::Tensor A = at::CPU(at::kFloat).rand({N, M});
-  at::Tensor B = at::CPU(at::kFloat).rand({N, M});
-  at::Tensor C = at::CPU(at::kFloat).rand({N, M});
-  at::Tensor Cc = A + B;
-  fptr(A.data<float>(), B.data<float>(), C.data<float>());
 
-  checkRtol(Cc - C, {A, B}, N * M);
-}
-
-TEST(LLVMCodegen, BasicParallel) {
-  string tc = R"TC(
-def fun(float(N, M) A, float(N, M) B) -> (C) {
-  C(n, m) = A(n, m) + B(n, m)
-}
-)TC";
-  auto N = 40;
-  auto M = 24;
-
-  auto ctx = isl::with_exceptions::globalIslCtx();
-  auto scop = polyhedral::Scop::makeScop(ctx, tc);
-  auto context = scop->makeContext(
-      std::unordered_map<std::string, int>{{"N", N}, {"M", M}});
-  scop = Scop::makeSpecializedScop(*scop, context);
-  SchedulerOptionsProto sop;
-  SchedulerOptionsView sov(sop);
-  scop = Scop::makeScheduled(*scop, sov);
   Jit jit;
-  auto mod = jit.codegenScop("kernel_anon", *scop);
-  auto correct_llvm = R"LLVM(
-; Function Attrs: nounwind
-define void @kernel_anon([24 x float]* noalias nocapture nonnull readonly %A, [24 x float]* noalias nocapture nonnull readonly %B, [24 x float]* noalias nocapture nonnull %C) local_unnamed_addr #0 {
-entry:
-  %__cilkrts_sf = alloca %struct.__cilkrts_stack_frame, align 8
-  %0 = call %struct.__cilkrts_worker* @__cilkrts_get_tls_worker() #0
-  %1 = icmp eq %struct.__cilkrts_worker* %0, null
-  br i1 %1, label %slowpath.i, label %__cilkrts_enter_frame_1.exit
-
-slowpath.i:                                       ; preds = %entry
-  %2 = call %struct.__cilkrts_worker* @__cilkrts_bind_thread_1() #0
-  br label %__cilkrts_enter_frame_1.exit
-
-__cilkrts_enter_frame_1.exit:                     ; preds = %entry, %slowpath.i
-  %.sink = phi i32 [ 16777344, %slowpath.i ], [ 16777216, %entry ]
-  %3 = phi %struct.__cilkrts_worker* [ %2, %slowpath.i ], [ %0, %entry ]
-  %4 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
-  store volatile i32 %.sink, i32* %4, align 8
-  %5 = getelementptr inbounds %struct.__cilkrts_worker, %struct.__cilkrts_worker* %3, i64 0, i32 9
-  %6 = load volatile %struct.__cilkrts_stack_frame*, %struct.__cilkrts_stack_frame** %5, align 8
-  %7 = getelementptr inbounds %struct.__cilkrts_stack_frame, %struct.__cilkrts_stack_frame* %__cilkrts_sf, i64 0, i32 2
-  store volatile %struct.__cilkrts_stack_frame* %6, %struct.__cilkrts_stack_frame** %7, align 8
-  %8 = getelementptr inbounds %struct.__cilkrts_stack_frame, %struct.__cilkrts_stack_frame* %__cilkrts_sf, i64 0, i32 3
-  store volatile %struct.__cilkrts_worker* %3, %struct.__cilkrts_worker** %8, align 8
-  store volatile %struct.__cilkrts_stack_frame* %__cilkrts_sf, %struct.__cilkrts_stack_frame** %5, align 8
-  %9 = getelementptr inbounds %struct.__cilkrts_stack_frame, %struct.__cilkrts_stack_frame* %__cilkrts_sf, i64 0, i32 5
-  br label %loop_body
-
-loop_body:                                        ; preds = %loop_latch, %__cilkrts_enter_frame_1.exit
-  %c09 = phi i64 [ 0, %__cilkrts_enter_frame_1.exit ], [ %23, %loop_latch ]
-  %10 = bitcast [5 x i8*]* %9 to i8*
-  %11 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr = getelementptr i8, i8* %11, i64 72
-  %12 = bitcast i8* %sunkaddr to i32*
-  %13 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr16 = getelementptr i8, i8* %13, i64 76
-  %14 = bitcast i8* %sunkaddr16 to i16*
-  call void asm sideeffect "stmxcsr $0\0A\09fnstcw $1", "*m,*m,~{dirflag},~{fpsr},~{flags}"(i32* %12, i16* %14) #0
-  %15 = call i8* @llvm.frameaddress(i32 0)
-  %16 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr17 = getelementptr i8, i8* %16, i64 32
-  %17 = bitcast i8* %sunkaddr17 to i8**
-  store volatile i8* %15, i8** %17, align 8
-  %18 = call i8* @llvm.stacksave()
-  %19 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr18 = getelementptr i8, i8* %19, i64 48
-  %20 = bitcast i8* %sunkaddr18 to i8**
-  store volatile i8* %18, i8** %20, align 8
-  %21 = call i32 @llvm.eh.sjlj.setjmp(i8* %10) #3
-  %22 = icmp eq i32 %21, 0
-  br i1 %22, label %loop_body.split, label %loop_latch
-
-loop_body.split:                                  ; preds = %loop_body
-  call fastcc void @kernel_anon_loop_body2.cilk([24 x float]* %C, i64 %c09, [24 x float]* %B, [24 x float]* %A)
-  br label %loop_latch
-
-loop_latch:                                       ; preds = %loop_body.split, %loop_body
-  %23 = add nuw nsw i64 %c09, 1
-  %exitcond = icmp eq i64 %23, 40
-  br i1 %exitcond, label %loop_exit, label %loop_body
-
-loop_exit:                                        ; preds = %loop_latch
-  %24 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
-  %25 = load volatile i32, i32* %24, align 8
-  %26 = and i32 %25, 2
-  %27 = icmp eq i32 %26, 0
-  br i1 %27, label %__cilk_sync.exit, label %cilk.sync.savestate.i
-
-cilk.sync.savestate.i:                            ; preds = %loop_exit
-  %28 = bitcast [5 x i8*]* %9 to i8*
-  %29 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr19 = getelementptr i8, i8* %29, i64 16
-  %30 = bitcast i8* %sunkaddr19 to %struct.__cilkrts_worker**
-  %31 = load volatile %struct.__cilkrts_worker*, %struct.__cilkrts_worker** %30, align 8
-  %32 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr20 = getelementptr i8, i8* %32, i64 72
-  %33 = bitcast i8* %sunkaddr20 to i32*
-  %34 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr21 = getelementptr i8, i8* %34, i64 76
-  %35 = bitcast i8* %sunkaddr21 to i16*
-  call void asm sideeffect "stmxcsr $0\0A\09fnstcw $1", "*m,*m,~{dirflag},~{fpsr},~{flags}"(i32* nonnull %33, i16* nonnull %35) #0
-  %36 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr22 = getelementptr i8, i8* %36, i64 32
-  %37 = bitcast i8* %sunkaddr22 to i8**
-  store volatile i8* %15, i8** %37, align 8
-  %38 = call i8* @llvm.stacksave()
-  %39 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr23 = getelementptr i8, i8* %39, i64 48
-  %40 = bitcast i8* %sunkaddr23 to i8**
-  store volatile i8* %38, i8** %40, align 8
-  %41 = call i32 @llvm.eh.sjlj.setjmp(i8* nonnull %28) #3
-  %42 = icmp eq i32 %41, 0
-  br i1 %42, label %cilk.sync.runtimecall.i, label %cilk.sync.excepting.i
-
-cilk.sync.runtimecall.i:                          ; preds = %cilk.sync.savestate.i
-  call void @__cilkrts_sync(%struct.__cilkrts_stack_frame* nonnull %__cilkrts_sf) #0
-  br label %__cilk_sync.exit
-
-cilk.sync.excepting.i:                            ; preds = %cilk.sync.savestate.i
-  %43 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
-  %44 = load volatile i32, i32* %43, align 8
-  %45 = and i32 %44, 16
-  %46 = icmp eq i32 %45, 0
-  br i1 %46, label %__cilk_sync.exit, label %cilk.sync.rethrow.i
-
-cilk.sync.rethrow.i:                              ; preds = %cilk.sync.excepting.i
-  call void @__cilkrts_rethrow(%struct.__cilkrts_stack_frame* nonnull %__cilkrts_sf) #4
-  unreachable
-
-__cilk_sync.exit:                                 ; preds = %loop_exit, %cilk.sync.runtimecall.i, %cilk.sync.excepting.i
-  %47 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
-  %48 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr24 = getelementptr i8, i8* %48, i64 16
-  %49 = bitcast i8* %sunkaddr24 to %struct.__cilkrts_worker**
-  %50 = load volatile %struct.__cilkrts_worker*, %struct.__cilkrts_worker** %49, align 8
-  %51 = getelementptr inbounds %struct.__cilkrts_worker, %struct.__cilkrts_worker* %50, i64 0, i32 12, i32 0
-  %52 = load i64, i64* %51, align 8
-  %53 = add i64 %52, 1
-  store i64 %53, i64* %51, align 8
-  %54 = load volatile %struct.__cilkrts_worker*, %struct.__cilkrts_worker** %49, align 8
-  %55 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
-  %sunkaddr25 = getelementptr i8, i8* %55, i64 8
-  %56 = bitcast i8* %sunkaddr25 to %struct.__cilkrts_stack_frame**
-  %57 = load volatile %struct.__cilkrts_stack_frame*, %struct.__cilkrts_stack_frame** %56, align 8
-  %58 = getelementptr inbounds %struct.__cilkrts_worker, %struct.__cilkrts_worker* %54, i64 0, i32 9
-  store volatile %struct.__cilkrts_stack_frame* %57, %struct.__cilkrts_stack_frame** %58, align 8
-  store volatile %struct.__cilkrts_stack_frame* null, %struct.__cilkrts_stack_frame** %56, align 8
-  %59 = load volatile i32, i32* %47, align 8
-  %60 = icmp eq i32 %59, 16777216
-  br i1 %60, label %__cilk_parent_epilogue.exit, label %body.i
-
-body.i:                                           ; preds = %__cilk_sync.exit
-  call void @__cilkrts_leave_frame(%struct.__cilkrts_stack_frame* nonnull %__cilkrts_sf) #0
-  br label %__cilk_parent_epilogue.exit
-
-__cilk_parent_epilogue.exit:                      ; preds = %__cilk_sync.exit, %body.i
-  ret void
-}
-)LLVM";
-  EXPECT_EQ(correct_llvm, toString(mod->getFunction("kernel_anon")));
+  jit.codegenScop("kernel_anon", *scop);
   auto fptr =
       (void (*)(float*, float*, float*))jit.getSymbolAddress("kernel_anon");
 
diff --git a/test/test_mapper_tapir.cc b/test/test_mapper_tapir.cc
@@ -0,0 +1,98 @@
+/**
+ * Copyright (c) 2017-present, Facebook, Inc.
+ *
+ * Licensed under the Apache License, Version 2.0 (the "License");
+ * you may not use this file except in compliance with the License.
+ * You may obtain a copy of the License at
+ *
+ *     http://www.apache.org/licenses/LICENSE-2.0
+ *
+ * Unless required by applicable law or agreed to in writing, software
+ * distributed under the License is distributed on an "AS IS" BASIS,
+ * WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+ * See the License for the specific language governing permissions and
+ * limitations under the License.
+ */
+
+#include <gflags/gflags.h>
+#include <glog/logging.h>
+#include <gtest/gtest.h>
+
+#include <ATen/ATen.h>
+
+#include <llvm/IR/InstIterator.h>
+#include <llvm/IR/Instructions.h>
+
+#include "tc/aten/utils.h"
+#include "tc/core/cpu/cpu_tc_executor.h"
+#include "tc/core/execution_engine.h"
+#include "tc/core/mapping_options.h"
+#include "tc/core/polyhedral/codegen_llvm.h"
+#include "tc/core/polyhedral/llvm_jit.h"
+#include "tc/core/polyhedral/scop.h"
+#include "tc/core/scope_guard.h"
+
+#include "test_harness_aten.h"
+
+using namespace std;
+
+using namespace tc;
+using namespace tc::polyhedral;
+using namespace tc::polyhedral::detail;
+
+TEST(TapirCodegen, BasicParallel) {
+  string tc = R"TC(
+def fun(float(N, M) A, float(N, M) B) -> (C) {
+  C(n, m) = A(n, m) + B(n, m)
+}
+)TC";
+  auto N = 40;
+  auto M = 24;
+
+  auto ctx = isl::with_exceptions::globalIslCtx();
+  auto scop = polyhedral::Scop::makeScop(ctx, tc);
+  auto context = scop->makeContext(
+      std::unordered_map<std::string, int>{{"N", N}, {"M", M}});
+  scop = Scop::makeSpecializedScop(*scop, context);
+  SchedulerOptionsProto sop;
+  SchedulerOptionsView sov(sop);
+  scop = Scop::makeScheduled(*scop, sov);
+  Jit jit;
+  auto mod = jit.codegenScop("kernel_anon", *scop);
+  auto fn = mod->getFunction("kernel_anon");
+
+  std::set<string> calledFunctions;
+  for (llvm::inst_iterator I = llvm::inst_begin(fn), E = llvm::inst_end(fn);
+       I != E;
+       ++I) {
+    if (llvm::CallInst* c = llvm::dyn_cast<llvm::CallInst>(&*I)) {
+      if (auto called = c->getCalledFunction()) {
+        calledFunctions.insert(called->getName());
+      }
+    }
+  }
+
+  ASSERT_NE(0, calledFunctions.count("__cilkrts_get_tls_worker"));
+  ASSERT_NE(0, calledFunctions.count("__cilkrts_bind_thread_1"));
+  ASSERT_NE(0, calledFunctions.count("llvm.stacksave"));
+  ASSERT_NE(0, calledFunctions.count("__cilkrts_sync"));
+
+  auto fptr =
+      (void (*)(float*, float*, float*))jit.getSymbolAddress("kernel_anon");
+
+  at::Tensor A = at::CPU(at::kFloat).rand({N, M});
+  at::Tensor B = at::CPU(at::kFloat).rand({N, M});
+  at::Tensor C = at::CPU(at::kFloat).rand({N, M});
+  at::Tensor Cc = A + B;
+  fptr(A.data<float>(), B.data<float>(), C.data<float>());
+
+  checkRtol(Cc - C, {A, B}, N * M);
+}
+
+int main(int argc, char** argv) {
+  ::testing::InitGoogleTest(&argc, argv);
+  ::gflags::ParseCommandLineFlags(&argc, &argv, true);
+  ::google::InitGoogleLogging(argv[0]);
+  initialize_llvm();
+  return RUN_ALL_TESTS();
+}