Add run --hadoop

alexarchambault · alexarchambault · commit 22f41ed08449 · 2022-08-22T15:31:36.000+02:00
diff --git a/modules/cli-options/src/main/scala/scala/cli/commands/RunOptions.scala b/modules/cli-options/src/main/scala/scala/cli/commands/RunOptions.scala
@@ -34,6 +34,10 @@ final case class RunOptions(
   @ExtraName("sparkStandalone")
     standaloneSpark: Option[Boolean] = None,
   @Group("Run")
+  @HelpMessage("Run as a Hadoop job, using the \"hadoop jar\" command")
+  @ExtraName("hadoop")
+    hadoopJar: Boolean = false,
+  @Group("Run")
   @HelpMessage("Print the command that would have been run (one argument per line), rather than running it")
     command: Boolean = false,
   @Group("Run")
diff --git a/modules/cli/src/main/scala/scala/cli/commands/Package.scala b/modules/cli/src/main/scala/scala/cli/commands/Package.scala
@@ -760,7 +760,7 @@ object Package extends ScalaCommand[PackageOptions] {
     providedFiles
   }
 
-  private def assembly(
+  def assembly(
     build: Build.Successful,
     destPath: os.Path,
     mainClassOpt: Option[String],
diff --git a/modules/cli/src/main/scala/scala/cli/commands/Run.scala b/modules/cli/src/main/scala/scala/cli/commands/Run.scala
@@ -17,7 +17,7 @@ import scala.cli.internal.ProcUtil
 import scala.util.Properties
 import scala.cli.config.{ConfigDb, Keys}
 import scala.cli.commands.util.CommonOps.SharedDirectoriesOptionsOps
-import scala.cli.commands.util.RunSpark
+import scala.cli.commands.util.{RunHadoop, RunSpark}
 
 object Run extends ScalaCommand[RunOptions] {
   override def group = "Main"
@@ -29,6 +29,8 @@ object Run extends ScalaCommand[RunOptions] {
       RunMode.StandaloneSparkSubmit
     else if (options.sparkSubmit.getOrElse(false))
       RunMode.SparkSubmit
+    else if (options.hadoopJar)
+      RunMode.HadoopJar
     else
       RunMode.Default
 
@@ -61,24 +63,26 @@ object Run extends ScalaCommand[RunOptions] {
             sharedJava.allJavaOpts.map(JavaOpt(_)).map(Positioned.commandLine),
         jvmIdOpt = baseOptions.javaOptions.jvmIdOpt.orElse {
           runMode(options) match {
-            case RunMode.StandaloneSparkSubmit | RunMode.SparkSubmit => Some("8")
-            case RunMode.Default                                     => None
+            case RunMode.StandaloneSparkSubmit | RunMode.SparkSubmit | RunMode.HadoopJar =>
+              Some("8")
+            case RunMode.Default => None
           }
         }
       ),
       internalDependencies = baseOptions.internalDependencies.copy(
         addRunnerDependencyOpt = baseOptions.internalDependencies.addRunnerDependencyOpt.orElse {
           runMode(options) match {
-            case RunMode.StandaloneSparkSubmit | RunMode.SparkSubmit => Some(false)
-            case RunMode.Default                                     => None
+            case RunMode.StandaloneSparkSubmit | RunMode.SparkSubmit | RunMode.HadoopJar =>
+              Some(false)
+            case RunMode.Default => None
           }
         }
       ),
       internal = baseOptions.internal.copy(
         keepResolution = baseOptions.internal.keepResolution || {
           runMode(options) match {
-            case RunMode.StandaloneSparkSubmit | RunMode.SparkSubmit => true
-            case RunMode.Default                                     => false
+            case RunMode.StandaloneSparkSubmit | RunMode.SparkSubmit | RunMode.HadoopJar => true
+            case RunMode.Default                                                         => false
           }
         }
       ),
@@ -423,6 +427,18 @@ object Run extends ScalaCommand[RunOptions] {
                 scratchDirOpt
               )
             }
+          case RunMode.HadoopJar =>
+            value {
+              RunHadoop.run(
+                build,
+                mainClass,
+                args,
+                logger,
+                allowExecve,
+                showCommand,
+                scratchDirOpt
+              )
+            }
         }
     }
   }
diff --git a/modules/cli/src/main/scala/scala/cli/commands/packaging/Spark.scala b/modules/cli/src/main/scala/scala/cli/commands/packaging/Spark.scala
@@ -23,4 +23,10 @@ object Spark {
 
   def sparkModules: Seq[AnyModule] =
     names.map(name => mod"org.apache.spark::spark-$name")
+
+  def hadoopModules: Seq[AnyModule] =
+    Seq(
+      // TODO Add more for Hadoop 2, maybe for 3 too
+      mod"org.apache.hadoop:hadoop-client-api"
+    )
 }
diff --git a/modules/cli/src/main/scala/scala/cli/commands/run/RunMode.scala b/modules/cli/src/main/scala/scala/cli/commands/run/RunMode.scala
@@ -6,4 +6,5 @@ object RunMode {
   case object Default               extends RunMode
   case object SparkSubmit           extends RunMode
   case object StandaloneSparkSubmit extends RunMode
+  case object HadoopJar             extends RunMode
 }
diff --git a/modules/cli/src/main/scala/scala/cli/commands/util/RunHadoop.scala b/modules/cli/src/main/scala/scala/cli/commands/util/RunHadoop.scala
@@ -0,0 +1,71 @@
+package scala.cli.commands.util
+
+import scala.build.EitherCps.{either, value}
+import scala.build.{Build, Logger}
+import scala.build.errors.BuildException
+import scala.build.internal.Runner
+import scala.cli.commands.{Package => PackageCmd}
+import scala.cli.commands.packaging.Spark
+
+object RunHadoop {
+
+  def run(
+    build: Build.Successful,
+    mainClass: String,
+    args: Seq[String],
+    logger: Logger,
+    allowExecve: Boolean,
+    showCommand: Boolean,
+    scratchDirOpt: Option[os.Path]
+  ): Either[BuildException, Either[Seq[String], (Process, Option[() => Unit])]] = either {
+
+    // FIXME Get Spark.hadoopModules via provided settings?
+    val providedModules = Spark.hadoopModules
+    scratchDirOpt.foreach(os.makeDir.all(_))
+    val assembly = os.temp(
+      dir = scratchDirOpt.orNull,
+      prefix = "hadoop-job",
+      suffix = ".jar",
+      deleteOnExit = scratchDirOpt.isEmpty
+    )
+    value {
+      PackageCmd.assembly(
+        build,
+        assembly,
+        // "hadoop jar" doesn't accept a main class as second argument if the jar as first argument has a main class in its manifest…
+        None,
+        providedModules,
+        withPreamble = false,
+        () => (),
+        logger
+      )
+    }
+
+    val javaOpts = build.options.javaOptions.javaOpts.toSeq.map(_.value.value)
+    val extraEnv =
+      if (javaOpts.isEmpty) Map[String, String]()
+      else
+        Map(
+          "HADOOP_CLIENT_OPTS" -> javaOpts.mkString(" ") // no escaping…
+        )
+    val hadoopJarCommand = Seq("hadoop", "jar")
+    val finalCommand =
+      hadoopJarCommand ++ Seq(assembly.toString, mainClass) ++ args
+    if (showCommand)
+      Left(Runner.envCommand(extraEnv) ++ finalCommand)
+    else {
+      val proc =
+        if (allowExecve)
+          Runner.maybeExec("hadoop", finalCommand, logger, extraEnv = extraEnv)
+        else
+          Runner.run(finalCommand, logger, extraEnv = extraEnv)
+      Right((
+        proc,
+        if (scratchDirOpt.isEmpty) Some(() => os.remove(assembly, checkExists = true))
+        else None
+      ))
+    }
+
+  }
+
+}
diff --git a/modules/integration/src/test/scala/scala/cli/integration/HadoopTests.scala b/modules/integration/src/test/scala/scala/cli/integration/HadoopTests.scala
@@ -0,0 +1,101 @@
+package scala.cli.integration
+
+import com.eed3si9n.expecty.Expecty.expect
+
+class HadoopTests extends munit.FunSuite {
+
+  protected lazy val extraOptions: Seq[String] = TestUtil.extraOptions
+
+  test("simple map-reduce") {
+    val inputs = TestInputs(
+      os.rel / "WordCount.java" ->
+        """//> using lib "org.apache.hadoop:hadoop-client-api:3.3.3"
+          |
+          |// from https://hadoop.apache.org/docs/r3.3.3/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
+          |
+          |package foo;
+          |
+          |import java.io.IOException;
+          |import java.util.StringTokenizer;
+          |
+          |import org.apache.hadoop.conf.Configuration;
+          |import org.apache.hadoop.fs.Path;
+          |import org.apache.hadoop.io.IntWritable;
+          |import org.apache.hadoop.io.Text;
+          |import org.apache.hadoop.mapreduce.Job;
+          |import org.apache.hadoop.mapreduce.Mapper;
+          |import org.apache.hadoop.mapreduce.Reducer;
+          |import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
+          |import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
+          |
+          |public class WordCount {
+          |
+          |  public static class TokenizerMapper
+          |       extends Mapper<Object, Text, Text, IntWritable>{
+          |
+          |    private final static IntWritable one = new IntWritable(1);
+          |    private Text word = new Text();
+          |
+          |    public void map(Object key, Text value, Context context
+          |                    ) throws IOException, InterruptedException {
+          |      StringTokenizer itr = new StringTokenizer(value.toString());
+          |      while (itr.hasMoreTokens()) {
+          |        word.set(itr.nextToken());
+          |        context.write(word, one);
+          |      }
+          |    }
+          |  }
+          |
+          |  public static class IntSumReducer
+          |       extends Reducer<Text,IntWritable,Text,IntWritable> {
+          |    private IntWritable result = new IntWritable();
+          |
+          |    public void reduce(Text key, Iterable<IntWritable> values,
+          |                       Context context
+          |                       ) throws IOException, InterruptedException {
+          |      int sum = 0;
+          |      for (IntWritable val : values) {
+          |        sum += val.get();
+          |      }
+          |      result.set(sum);
+          |      context.write(key, result);
+          |    }
+          |  }
+          |
+          |  public static void main(String[] args) throws Exception {
+          |    Configuration conf = new Configuration();
+          |    Job job = Job.getInstance(conf, "word count");
+          |    job.setJarByClass(WordCount.class);
+          |    job.setMapperClass(TokenizerMapper.class);
+          |    job.setCombinerClass(IntSumReducer.class);
+          |    job.setReducerClass(IntSumReducer.class);
+          |    job.setOutputKeyClass(Text.class);
+          |    job.setOutputValueClass(IntWritable.class);
+          |    FileInputFormat.addInputPath(job, new Path(args[0]));
+          |    FileOutputFormat.setOutputPath(job, new Path(args[1]));
+          |    System.exit(job.waitForCompletion(true) ? 0 : 1);
+          |  }
+          |}
+          |""".stripMargin
+    )
+    inputs.fromRoot { root =>
+      val res = os.proc(
+        TestUtil.cli,
+        "run",
+        TestUtil.extraOptions,
+        ".",
+        "--hadoop",
+        "--command",
+        "--scratch-dir",
+        "tmp",
+        "--",
+        "foo"
+      )
+        .call(cwd = root)
+      val command = res.out.lines()
+      pprint.err.log(command)
+      expect(command.take(2) == Seq("hadoop", "jar"))
+      expect(command.takeRight(2) == Seq("foo.WordCount", "foo"))
+    }
+  }
+}
diff --git a/website/docs/reference/cli-options.md b/website/docs/reference/cli-options.md
@@ -1482,6 +1482,12 @@ Aliases: `--spark-standalone`
 
 Run as a Spark job, using a vanilla Spark distribution downloaded by Scala CLI
 
+#### `--hadoop-jar`
+
+Aliases: `--hadoop`
+
+Run as a Hadoop job, using the "hadoop jar" command
+
 #### `--command`
 
 Print the command that would have been run (one argument per line), rather than running it
diff --git a/website/src/pages/spark.md b/website/src/pages/spark.md
@@ -73,3 +73,83 @@ distribution. For that to work, it downloads Spark JARs, and calls the main clas
 ```bash
 scala-cli run --spark-standalone SparkJob.scala # same example as above
 ```
+
+## Running Hadoop jobs
+
+The `run` sub-command can run Hadoop jobs, by calling the `hadoop jar` command under-the-hood:
+
+<ChainedSnippets>
+
+```java title=WordCount.java
+//> using lib "org.apache.hadoop:hadoop-client-api:3.3.3"
+
+// from https://hadoop.apache.org/docs/r3.3.3/hadoop-mapreduce-client/hadoop-mapreduce-client-core/MapReduceTutorial.html
+
+import java.io.IOException;
+import java.util.StringTokenizer;
+
+import org.apache.hadoop.conf.Configuration;
+import org.apache.hadoop.fs.Path;
+import org.apache.hadoop.io.IntWritable;
+import org.apache.hadoop.io.Text;
+import org.apache.hadoop.mapreduce.Job;
+import org.apache.hadoop.mapreduce.Mapper;
+import org.apache.hadoop.mapreduce.Reducer;
+import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
+import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
+
+public class WordCount {
+
+  public static class TokenizerMapper
+       extends Mapper<Object, Text, Text, IntWritable>{
+
+    private final static IntWritable one = new IntWritable(1);
+    private Text word = new Text();
+
+    public void map(Object key, Text value, Context context
+                    ) throws IOException, InterruptedException {
+      StringTokenizer itr = new StringTokenizer(value.toString());
+      while (itr.hasMoreTokens()) {
+        word.set(itr.nextToken());
+        context.write(word, one);
+      }
+    }
+  }
+
+  public static class IntSumReducer
+       extends Reducer<Text,IntWritable,Text,IntWritable> {
+    private IntWritable result = new IntWritable();
+
+    public void reduce(Text key, Iterable<IntWritable> values,
+                       Context context
+                       ) throws IOException, InterruptedException {
+      int sum = 0;
+      for (IntWritable val : values) {
+        sum += val.get();
+      }
+      result.set(sum);
+      context.write(key, result);
+    }
+  }
+
+  public static void main(String[] args) throws Exception {
+    Configuration conf = new Configuration();
+    Job job = Job.getInstance(conf, "word count");
+    job.setJarByClass(WordCount.class);
+    job.setMapperClass(TokenizerMapper.class);
+    job.setCombinerClass(IntSumReducer.class);
+    job.setReducerClass(IntSumReducer.class);
+    job.setOutputKeyClass(Text.class);
+    job.setOutputValueClass(IntWritable.class);
+    FileInputFormat.addInputPath(job, new Path(args[0]));
+    FileOutputFormat.setOutputPath(job, new Path(args[1]));
+    System.exit(job.waitForCompletion(true) ? 0 : 1);
+  }
+}
+```
+
+```bash
+scala-cli run --hadoop WordCount.java
+```
+
+</ChainedSnippets>

Original file line number	Diff line number	Diff line change
`@@ -760,7 +760,7 @@ object Package extends ScalaCommand[PackageOptions] {`
`760`	`760`	`providedFiles`
`761`	`761`	`}`
`762`	`762`
`763`		`- private def assembly(`
	`763`	`+ def assembly(`
`764`	`764`	`build: Build.Successful,`
`765`	`765`	`destPath: os.Path,`
`766`	`766`	`mainClassOpt: Option[String],`
Original file line number	Diff line number	Diff line change
`@@ -6,4 +6,5 @@ object RunMode {`
`6`	`6`	`case object Default extends RunMode`
`7`	`7`	`case object SparkSubmit extends RunMode`
`8`	`8`	`case object StandaloneSparkSubmit extends RunMode`
	`9`	`+ case object HadoopJar extends RunMode`
`9`	`10`	`}`