Parallel CPU mapper

wsmoses · wsmoses · commit 6e822ac7db0d · 2018-03-29T06:06:40.000-04:00
diff --git a/include/tc/core/mapping_options.h b/include/tc/core/mapping_options.h
@@ -192,6 +192,7 @@ class SchedulerOptionsView {
   /// Construct a view that refers to a protocol buffers message.
   SchedulerOptionsView(const SchedulerOptionsView&) = default;
   SchedulerOptionsView(SchedulerOptionsProto& buf) : proto(buf) {}
+  SchedulerOptionsView(SchedulerOptionsProto&& buf) : proto(buf) {}
 
   /// Assign the values from another view.
   inline SchedulerOptionsView& operator=(const SchedulerOptionsView&);
diff --git a/include/tc/core/polyhedral/codegen_llvm.h b/include/tc/core/polyhedral/codegen_llvm.h
@@ -20,11 +20,29 @@
 
 #include "llvm/IR/LLVMContext.h"
 #include "llvm/IR/Module.h"
+#include "llvm/Support/raw_ostream.h"
 #include "llvm/Target/TargetMachine.h"
 
 #include "Halide.h"
 
 namespace tc {
+
+static inline std::string toString(llvm::Value* llvmObject) {
+  std::string output;
+  llvm::raw_string_ostream rso(output);
+  llvmObject->print(rso);
+  rso.str();
+  return output;
+}
+
+static inline std::string toString(llvm::Module* llvmObject) {
+  std::string output;
+  llvm::raw_string_ostream rso(output);
+  llvmObject->print(rso, nullptr, false, true);
+  rso.str();
+  return output;
+}
+
 namespace polyhedral {
 struct Scop;
 
diff --git a/include/tc/core/polyhedral/llvm_jit.h b/include/tc/core/polyhedral/llvm_jit.h
@@ -38,12 +38,11 @@ class Jit {
  public:
   Jit();
 
-  void codegenScop(
+  using ModuleHandle = decltype(compileLayer_)::ModuleHandleT;
+  std::shared_ptr<llvm::Module> codegenScop(
       const std::string& specializedName,
       const polyhedral::Scop& scop);
-
-  using ModuleHandle = decltype(compileLayer_)::ModuleHandleT;
-  ModuleHandle addModule(std::unique_ptr<llvm::Module> M);
+  ModuleHandle addModule(std::shared_ptr<llvm::Module> M);
   void removeModule(ModuleHandle H);
 
   llvm::JITSymbol findSymbol(const std::string name);
diff --git a/include/tc/core/polyhedral/scop.h b/include/tc/core/polyhedral/scop.h
@@ -340,8 +340,12 @@ struct Scop {
   // Create a Scop scheduled with a given scheduling strategy.
   static std::unique_ptr<Scop> makeScheduled(
       const Scop& scop,
-      const SchedulerOptionsView& schedulerOptions);
+      const SchedulerOptionsView&& schedulerOptions);
 
+  // Create a Scop scheduled with a given scheduling strategy.
+  static std::unique_ptr<Scop> makeScheduled(
+      const Scop& scop,
+      const SchedulerOptionsView& schedulerOptions);
   // Tile the outermost band.
   // Splits the band into tile loop band and point loop band where point loops
   // have fixed trip counts specified in "tiling", and returns a pointer to the
diff --git a/src/core/polyhedral/codegen_llvm.cc b/src/core/polyhedral/codegen_llvm.cc
@@ -55,17 +55,6 @@ using namespace Halide;
 
 namespace tc {
 
-namespace {
-template <typename T>
-std::string toString(T* llvmObject) {
-  std::string output;
-  llvm::raw_string_ostream rso(output);
-  llvmObject->print(rso, nullptr, false, true);
-  rso.str();
-  return output;
-}
-} // namespace
-
 namespace halide2isl {
 isl::aff makeIslAffFromExpr(isl::space space, const Halide::Expr& e);
 }
@@ -217,6 +206,9 @@ class CodeGen_TC : public Halide::Internal::CodeGen_X86 {
   using CodeGen_X86::sym_push;
 
   void init_module() override {
+    const char* llvm_args[] = {"tc (LLVM argument parsing)", nullptr};
+    llvm::cl::ParseCommandLineOptions(
+        sizeof(llvm_args) / sizeof(*llvm_args) - 1, llvm_args);
     init_context();
     module =
         llvm::make_unique<llvm::Module>("TensorComprehensionsModule", *context);
@@ -311,14 +303,13 @@ class CodeGen_TC : public Halide::Internal::CodeGen_X86 {
     functionPassManager.doInitialization();
     for (llvm::Module::iterator i = module->begin(); i != module->end(); i++) {
       functionPassManager.run(*i);
+    }
 
-      functionPassManager.doFinalization();
-      modulePassManager.run(*module);
+    functionPassManager.doFinalization();
+    modulePassManager.run(*module);
 
-      LOG_IF(INFO, FLAGS_llvm_dump_after_opt)
-          << "[LLVM-IR] After optimization:\n"
-          << toString(module.get());
-    }
+    LOG_IF(INFO, FLAGS_llvm_dump_after_opt) << "[LLVM-IR] After optimization:\n"
+                                            << toString(module.get());
   }
 };
 
@@ -492,8 +483,7 @@ class LLVMCodegen {
 
     // TODO: integrate query ISL as to whether the relevant loop ought be
     // parallelized
-    bool parallel = false;
-
+    bool parallel = isl_ast_node_for_is_coincident(node.get());
     llvm::Value* SyncRegion = nullptr;
 
 #ifdef TAPIR_VERSION_MAJOR
diff --git a/src/core/polyhedral/llvm_jit.cc b/src/core/polyhedral/llvm_jit.cc
@@ -82,18 +82,20 @@ Jit::Jit()
   }
 }
 
-void Jit::codegenScop(
+std::shared_ptr<Module> Jit::codegenScop(
     const std::string& specializedName,
     const polyhedral::Scop& scop) {
-  addModule(emitLLVMKernel(
-      specializedName, scop, getTargetMachine().createDataLayout()));
+  std::shared_ptr<Module> mod = emitLLVMKernel(
+      specializedName, scop, getTargetMachine().createDataLayout());
+  addModule(mod);
+  return mod;
 }
 
 TargetMachine& Jit::getTargetMachine() {
   return *TM_;
 }
 
-Jit::ModuleHandle Jit::addModule(std::unique_ptr<Module> M) {
+Jit::ModuleHandle Jit::addModule(std::shared_ptr<Module> M) {
   M->setTargetTriple(TM_->getTargetTriple().str());
   auto Resolver = orc::createLambdaResolver(
       [&](const std::string& Name) {
@@ -107,7 +109,7 @@ Jit::ModuleHandle Jit::addModule(std::unique_ptr<Module> M) {
         return JITSymbol(nullptr);
       });
 
-  auto res = compileLayer_.addModule(std::move(M), std::move(Resolver));
+  auto res = compileLayer_.addModule(M, std::move(Resolver));
   CHECK(res) << "Failed to jit compile.";
   return *res;
 }
diff --git a/src/core/polyhedral/scop.cc b/src/core/polyhedral/scop.cc
@@ -463,6 +463,17 @@ std::unique_ptr<Scop> Scop::makeScheduled(
   return s;
 }
 
+std::unique_ptr<Scop> Scop::makeScheduled(
+    const Scop& scop,
+    const SchedulerOptionsView&& schedulerOptions) {
+  auto s = makeScop(scop);
+  auto constraints = makeScheduleConstraints(*s, schedulerOptions);
+  s->scheduleTreeUPtr = computeSchedule(constraints, schedulerOptions);
+  LOG_IF(INFO, FLAGS_debug_tc_mapper) << "After scheduling:" << std::endl
+                                      << *s->scheduleTreeUPtr;
+  return s;
+}
+
 namespace {
 
 /*
diff --git a/test/test_mapper_llvm.cc b/test/test_mapper_llvm.cc
@@ -51,7 +51,6 @@ def fun(float(N, M) A, float(N, M) B) -> (C) {
   auto context = scop->makeContext(
       std::unordered_map<std::string, int>{{"N", N}, {"M", M}});
   scop = Scop::makeSpecializedScop(*scop, context);
-
   Jit jit;
   jit.codegenScop("kernel_anon", *scop);
   auto fptr =
@@ -66,6 +65,176 @@ def fun(float(N, M) A, float(N, M) B) -> (C) {
   checkRtol(Cc - C, {A, B}, N * M);
 }
 
+TEST(LLVMCodegen, BasicParallel) {
+  string tc = R"TC(
+def fun(float(N, M) A, float(N, M) B) -> (C) {
+  C(i, j) = A(i, j) + B(i, j)
+}
+)TC";
+  auto N = 40;
+  auto M = 24;
+
+  auto ctx = isl::with_exceptions::globalIslCtx();
+  auto scop = polyhedral::Scop::makeScop(ctx, tc);
+  auto context = scop->makeContext(
+      std::unordered_map<std::string, int>{{"N", N}, {"M", M}});
+  scop = Scop::makeSpecializedScop(*scop, context);
+  scop =
+      Scop::makeScheduled(*scop, SchedulerOptionsView(SchedulerOptionsProto()));
+  Jit jit;
+  auto mod = jit.codegenScop("kernel_anon", *scop);
+  auto correct_llvm = R"LLVM(
+; Function Attrs: nounwind
+define void @kernel_anon([24 x float]* noalias nocapture nonnull readonly %A, [24 x float]* noalias nocapture nonnull readonly %B, [24 x float]* noalias nocapture nonnull %C) local_unnamed_addr #0 {
+entry:
+  %__cilkrts_sf = alloca %struct.__cilkrts_stack_frame, align 8
+  %0 = call %struct.__cilkrts_worker* @__cilkrts_get_tls_worker() #0
+  %1 = icmp eq %struct.__cilkrts_worker* %0, null
+  br i1 %1, label %slowpath.i, label %__cilkrts_enter_frame_1.exit
+
+slowpath.i:                                       ; preds = %entry
+  %2 = call %struct.__cilkrts_worker* @__cilkrts_bind_thread_1() #0
+  br label %__cilkrts_enter_frame_1.exit
+
+__cilkrts_enter_frame_1.exit:                     ; preds = %entry, %slowpath.i
+  %.sink = phi i32 [ 16777344, %slowpath.i ], [ 16777216, %entry ]
+  %3 = phi %struct.__cilkrts_worker* [ %2, %slowpath.i ], [ %0, %entry ]
+  %4 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
+  store volatile i32 %.sink, i32* %4, align 8
+  %5 = getelementptr inbounds %struct.__cilkrts_worker, %struct.__cilkrts_worker* %3, i64 0, i32 9
+  %6 = load volatile %struct.__cilkrts_stack_frame*, %struct.__cilkrts_stack_frame** %5, align 8
+  %7 = getelementptr inbounds %struct.__cilkrts_stack_frame, %struct.__cilkrts_stack_frame* %__cilkrts_sf, i64 0, i32 2
+  store volatile %struct.__cilkrts_stack_frame* %6, %struct.__cilkrts_stack_frame** %7, align 8
+  %8 = getelementptr inbounds %struct.__cilkrts_stack_frame, %struct.__cilkrts_stack_frame* %__cilkrts_sf, i64 0, i32 3
+  store volatile %struct.__cilkrts_worker* %3, %struct.__cilkrts_worker** %8, align 8
+  store volatile %struct.__cilkrts_stack_frame* %__cilkrts_sf, %struct.__cilkrts_stack_frame** %5, align 8
+  %9 = getelementptr inbounds %struct.__cilkrts_stack_frame, %struct.__cilkrts_stack_frame* %__cilkrts_sf, i64 0, i32 5
+  br label %loop_body
+
+loop_body:                                        ; preds = %loop_latch, %__cilkrts_enter_frame_1.exit
+  %c09 = phi i64 [ 0, %__cilkrts_enter_frame_1.exit ], [ %23, %loop_latch ]
+  %10 = bitcast [5 x i8*]* %9 to i8*
+  %11 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr = getelementptr i8, i8* %11, i64 72
+  %12 = bitcast i8* %sunkaddr to i32*
+  %13 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr16 = getelementptr i8, i8* %13, i64 76
+  %14 = bitcast i8* %sunkaddr16 to i16*
+  call void asm sideeffect "stmxcsr $0\0A\09fnstcw $1", "*m,*m,~{dirflag},~{fpsr},~{flags}"(i32* %12, i16* %14) #0
+  %15 = call i8* @llvm.frameaddress(i32 0)
+  %16 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr17 = getelementptr i8, i8* %16, i64 32
+  %17 = bitcast i8* %sunkaddr17 to i8**
+  store volatile i8* %15, i8** %17, align 8
+  %18 = call i8* @llvm.stacksave()
+  %19 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr18 = getelementptr i8, i8* %19, i64 48
+  %20 = bitcast i8* %sunkaddr18 to i8**
+  store volatile i8* %18, i8** %20, align 8
+  %21 = call i32 @llvm.eh.sjlj.setjmp(i8* %10) #3
+  %22 = icmp eq i32 %21, 0
+  br i1 %22, label %loop_body.split, label %loop_latch
+
+loop_body.split:                                  ; preds = %loop_body
+  call fastcc void @kernel_anon_loop_body2.cilk([24 x float]* %C, i64 %c09, [24 x float]* %B, [24 x float]* %A)
+  br label %loop_latch
+
+loop_latch:                                       ; preds = %loop_body.split, %loop_body
+  %23 = add nuw nsw i64 %c09, 1
+  %exitcond = icmp eq i64 %23, 40
+  br i1 %exitcond, label %loop_exit, label %loop_body
+
+loop_exit:                                        ; preds = %loop_latch
+  %24 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
+  %25 = load volatile i32, i32* %24, align 8
+  %26 = and i32 %25, 2
+  %27 = icmp eq i32 %26, 0
+  br i1 %27, label %__cilk_sync.exit, label %cilk.sync.savestate.i
+
+cilk.sync.savestate.i:                            ; preds = %loop_exit
+  %28 = bitcast [5 x i8*]* %9 to i8*
+  %29 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr19 = getelementptr i8, i8* %29, i64 16
+  %30 = bitcast i8* %sunkaddr19 to %struct.__cilkrts_worker**
+  %31 = load volatile %struct.__cilkrts_worker*, %struct.__cilkrts_worker** %30, align 8
+  %32 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr20 = getelementptr i8, i8* %32, i64 72
+  %33 = bitcast i8* %sunkaddr20 to i32*
+  %34 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr21 = getelementptr i8, i8* %34, i64 76
+  %35 = bitcast i8* %sunkaddr21 to i16*
+  call void asm sideeffect "stmxcsr $0\0A\09fnstcw $1", "*m,*m,~{dirflag},~{fpsr},~{flags}"(i32* nonnull %33, i16* nonnull %35) #0
+  %36 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr22 = getelementptr i8, i8* %36, i64 32
+  %37 = bitcast i8* %sunkaddr22 to i8**
+  store volatile i8* %15, i8** %37, align 8
+  %38 = call i8* @llvm.stacksave()
+  %39 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr23 = getelementptr i8, i8* %39, i64 48
+  %40 = bitcast i8* %sunkaddr23 to i8**
+  store volatile i8* %38, i8** %40, align 8
+  %41 = call i32 @llvm.eh.sjlj.setjmp(i8* nonnull %28) #3
+  %42 = icmp eq i32 %41, 0
+  br i1 %42, label %cilk.sync.runtimecall.i, label %cilk.sync.excepting.i
+
+cilk.sync.runtimecall.i:                          ; preds = %cilk.sync.savestate.i
+  call void @__cilkrts_sync(%struct.__cilkrts_stack_frame* nonnull %__cilkrts_sf) #0
+  br label %__cilk_sync.exit
+
+cilk.sync.excepting.i:                            ; preds = %cilk.sync.savestate.i
+  %43 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
+  %44 = load volatile i32, i32* %43, align 8
+  %45 = and i32 %44, 16
+  %46 = icmp eq i32 %45, 0
+  br i1 %46, label %__cilk_sync.exit, label %cilk.sync.rethrow.i
+
+cilk.sync.rethrow.i:                              ; preds = %cilk.sync.excepting.i
+  call void @__cilkrts_rethrow(%struct.__cilkrts_stack_frame* nonnull %__cilkrts_sf) #4
+  unreachable
+
+__cilk_sync.exit:                                 ; preds = %loop_exit, %cilk.sync.runtimecall.i, %cilk.sync.excepting.i
+  %47 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i32*
+  %48 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr24 = getelementptr i8, i8* %48, i64 16
+  %49 = bitcast i8* %sunkaddr24 to %struct.__cilkrts_worker**
+  %50 = load volatile %struct.__cilkrts_worker*, %struct.__cilkrts_worker** %49, align 8
+  %51 = getelementptr inbounds %struct.__cilkrts_worker, %struct.__cilkrts_worker* %50, i64 0, i32 12, i32 0
+  %52 = load i64, i64* %51, align 8
+  %53 = add i64 %52, 1
+  store i64 %53, i64* %51, align 8
+  %54 = load volatile %struct.__cilkrts_worker*, %struct.__cilkrts_worker** %49, align 8
+  %55 = bitcast %struct.__cilkrts_stack_frame* %__cilkrts_sf to i8*
+  %sunkaddr25 = getelementptr i8, i8* %55, i64 8
+  %56 = bitcast i8* %sunkaddr25 to %struct.__cilkrts_stack_frame**
+  %57 = load volatile %struct.__cilkrts_stack_frame*, %struct.__cilkrts_stack_frame** %56, align 8
+  %58 = getelementptr inbounds %struct.__cilkrts_worker, %struct.__cilkrts_worker* %54, i64 0, i32 9
+  store volatile %struct.__cilkrts_stack_frame* %57, %struct.__cilkrts_stack_frame** %58, align 8
+  store volatile %struct.__cilkrts_stack_frame* null, %struct.__cilkrts_stack_frame** %56, align 8
+  %59 = load volatile i32, i32* %47, align 8
+  %60 = icmp eq i32 %59, 16777216
+  br i1 %60, label %__cilk_parent_epilogue.exit, label %body.i
+
+body.i:                                           ; preds = %__cilk_sync.exit
+  call void @__cilkrts_leave_frame(%struct.__cilkrts_stack_frame* nonnull %__cilkrts_sf) #0
+  br label %__cilk_parent_epilogue.exit
+
+__cilk_parent_epilogue.exit:                      ; preds = %__cilk_sync.exit, %body.i
+  ret void
+}
+)LLVM";
+  EXPECT_EQ(correct_llvm, toString(mod->getFunction("kernel_anon")));
+  auto fptr =
+      (void (*)(float*, float*, float*))jit.getSymbolAddress("kernel_anon");
+
+  at::Tensor A = at::CPU(at::kFloat).rand({N, M});
+  at::Tensor B = at::CPU(at::kFloat).rand({N, M});
+  at::Tensor C = at::CPU(at::kFloat).rand({N, M});
+  at::Tensor Cc = A + B;
+  fptr(A.data<float>(), B.data<float>(), C.data<float>());
+
+  checkRtol(Cc - C, {A, B}, N * M);
+}
+
 TEST(LLVMCodegen, DISABLED_BasicExecutionEngine) {
   string tc = R"TC(
 def fun(float(N, M) A, float(N, M) B) -> (C) {

Original file line number	Diff line number	Diff line change
`@@ -82,18 +82,20 @@ Jit::Jit()`
`82`	`82`	`}`
`83`	`83`	`}`
`84`	`84`
`85`		`-void Jit::codegenScop(`
	`85`	`+std::shared_ptr<Module> Jit::codegenScop(`
`86`	`86`	`const std::string& specializedName,`
`87`	`87`	`const polyhedral::Scop& scop) {`
`88`		`- addModule(emitLLVMKernel(`
`89`		`- specializedName, scop, getTargetMachine().createDataLayout()));`
	`88`	`+ std::shared_ptr<Module> mod = emitLLVMKernel(`
	`89`	`+ specializedName, scop, getTargetMachine().createDataLayout());`
	`90`	`+ addModule(mod);`
	`91`	`+ return mod;`
`90`	`92`	`}`
`91`	`93`
`92`	`94`	`TargetMachine& Jit::getTargetMachine() {`
`93`	`95`	`return *TM_;`
`94`	`96`	`}`
`95`	`97`
`96`		`-Jit::ModuleHandle Jit::addModule(std::unique_ptr<Module> M) {`
	`98`	`+Jit::ModuleHandle Jit::addModule(std::shared_ptr<Module> M) {`
`97`	`99`	`M->setTargetTriple(TM_->getTargetTriple().str());`
`98`	`100`	`auto Resolver = orc::createLambdaResolver(`
`99`	`101`	`[&](const std::string& Name) {`
`@@ -107,7 +109,7 @@ Jit::ModuleHandle Jit::addModule(std::unique_ptr<Module> M) {`
`107`	`109`	`return JITSymbol(nullptr);`
`108`	`110`	`});`
`109`	`111`
`110`		`- auto res = compileLayer_.addModule(std::move(M), std::move(Resolver));`
	`112`	`+ auto res = compileLayer_.addModule(M, std::move(Resolver));`
`111`	`113`	`CHECK(res) << "Failed to jit compile.";`
`112`	`114`	`return *res;`
`113`	`115`	`}`