Reusing compiled regex pattern instead of recompiling it multiple time during tokenization.

vatsalmevada · vatsalmevada · commit f0183fce8635 · 2020-10-13T16:13:37.000+05:30
diff --git a/pom.xml b/pom.xml
@@ -58,6 +58,13 @@
       <version>2.5.6</version>
       <scope>test</scope>
     </dependency>
+
+    <dependency>
+      <groupId>org.openjdk.jmh</groupId>
+      <artifactId>jmh-generator-annprocess</artifactId>
+      <version>1.19</version>
+      <scope>test</scope>
+    </dependency>
   </dependencies>
 
   <build>
diff --git a/src/main/java/com/github/vertical_blank/sqlformatter/core/Tokenizer.java b/src/main/java/com/github/vertical_blank/sqlformatter/core/Tokenizer.java
@@ -12,26 +12,26 @@
 
 
 public class Tokenizer {
-	private String WHITESPACE_REGEX;
-	private String NUMBER_REGEX;
-	private String OPERATOR_REGEX;
+	private final Pattern WHITESPACE_PATTERN;
+	private final Pattern NUMBER_PATTERN;
+	private final Pattern OPERATOR_PATTERN;
 
-	private String BLOCK_COMMENT_REGEX;
-	private String LINE_COMMENT_REGEX;
+	private final Pattern BLOCK_COMMENT_PATTERN;
+	private final Pattern LINE_COMMENT_PATTERN;
 
-	private String RESERVED_TOPLEVEL_REGEX;
-	private String RESERVED_NEWLINE_REGEX;
-	private String RESERVED_PLAIN_REGEX;
+	private final Pattern RESERVED_TOPLEVEL_PATTERN;
+	private final Pattern RESERVED_NEWLINE_PATTERN;
+	private final Pattern RESERVED_PLAIN_PATTERN;
 
-	private String WORD_REGEX;
-	private String STRING_REGEX;
+	private final Pattern WORD_PATTERN;
+	private final Pattern STRING_PATTERN;
 
-	private String OPEN_PAREN_REGEX;
-	private String CLOSE_PAREN_REGEX;
+	private final Pattern OPEN_PAREN_PATTERN;
+	private final Pattern CLOSE_PAREN_PATTERN;
 
-	private String INDEXED_PLACEHOLDER_REGEX;
-	private String IDENT_NAMED_PLACEHOLDER_REGEX;
-	private String STRING_NAMED_PLACEHOLDER_REGEX;
+	private final Pattern INDEXED_PLACEHOLDER_PATTERN;
+	private final Pattern IDENT_NAMED_PLACEHOLDER_PATTERN;
+	private final Pattern STRING_NAMED_PLACEHOLDER_PATTERN;
 
 
 	/**
@@ -47,27 +47,28 @@ public class Tokenizer {
 	 *            {String[]} cfg.specialWordChars Special chars that can be found inside of words, like @ and #
 	 */
 	public Tokenizer(DialectConfig cfg) {
-		this.WHITESPACE_REGEX = "^(\\s+)";
-		this.NUMBER_REGEX = "^((-\\s*)?[0-9]+(\\.[0-9]+)?|0x[0-9a-fA-F]+|0b[01]+)\\b";
-		this.OPERATOR_REGEX = "^(!=|<>|==|<=|>=|!<|!>|\\|\\||::|->>|=>|->|~~\\*|~~|!~~\\*|!~~|~\\*|!~\\*|!~|.)";
+		this.WHITESPACE_PATTERN = Pattern.compile("^(\\s+)");
+		this.NUMBER_PATTERN = Pattern.compile("^((-\\s*)?[0-9]+(\\.[0-9]+)?|0x[0-9a-fA-F]+|0b[01]+)\\b");
+		this.OPERATOR_PATTERN = Pattern.compile("^(!=|<>|==|<=|>=|!<|!>|\\|\\||::|->>|=>|->|~~\\*|~~|!~~\\*|!~~|~\\*|!~\\*|!~|.)");
 
 //        this.BLOCK_COMMENT_REGEX = /^(\/\*[^]*?(?:\*\/|$))/;
-		this.BLOCK_COMMENT_REGEX = "^(/\\*(?s).*?(?:\\*/|$))";
-		this.LINE_COMMENT_REGEX = this.createLineCommentRegex(new JSLikeList<>(cfg.lineCommentTypes));
+		this.BLOCK_COMMENT_PATTERN = Pattern.compile("^(/\\*(?s).*?(?:\\*/|$))");
+		this.LINE_COMMENT_PATTERN = Pattern.compile(this.createLineCommentRegex(new JSLikeList<>(cfg.lineCommentTypes)));
 
-		this.RESERVED_TOPLEVEL_REGEX = this.createReservedWordRegex(new JSLikeList<>(cfg.reservedToplevelWords));
-		this.RESERVED_NEWLINE_REGEX = this.createReservedWordRegex(new JSLikeList<>(cfg.reservedNewlineWords));
-		this.RESERVED_PLAIN_REGEX = this.createReservedWordRegex(new JSLikeList<>(cfg.reservedWords));
+		this.RESERVED_TOPLEVEL_PATTERN = Pattern.compile(this.createReservedWordRegex(new JSLikeList<>(cfg.reservedToplevelWords)));
+		this.RESERVED_NEWLINE_PATTERN = Pattern.compile(this.createReservedWordRegex(new JSLikeList<>(cfg.reservedNewlineWords)));
+		this.RESERVED_PLAIN_PATTERN = Pattern.compile(this.createReservedWordRegex(new JSLikeList<>(cfg.reservedWords)));
 
-		this.WORD_REGEX = this.createWordRegex(new JSLikeList<>(cfg.specialWordChars));
-		this.STRING_REGEX = this.createStringRegex(new JSLikeList<>(cfg.stringTypes));
+		this.WORD_PATTERN = Pattern.compile(this.createWordRegex(new JSLikeList<>(cfg.specialWordChars)));
+		this.STRING_PATTERN = Pattern.compile(this.createStringRegex(new JSLikeList<>(cfg.stringTypes)));
 
-		this.OPEN_PAREN_REGEX = this.createParenRegex(new JSLikeList<>(cfg.openParens));
-		this.CLOSE_PAREN_REGEX = this.createParenRegex(new JSLikeList<>(cfg.closeParens));
+		this.OPEN_PAREN_PATTERN = Pattern.compile(this.createParenRegex(new JSLikeList<>(cfg.openParens)));
+		this.CLOSE_PAREN_PATTERN = Pattern.compile(this.createParenRegex(new JSLikeList<>(cfg.closeParens)));
 
-		this.INDEXED_PLACEHOLDER_REGEX = createPlaceholderRegex(new JSLikeList<>(cfg.indexedPlaceholderTypes), "[0-9]*");
-		this.IDENT_NAMED_PLACEHOLDER_REGEX = createPlaceholderRegex(new JSLikeList<>(cfg.namedPlaceholderTypes), "[a-zA-Z0-9._$]+");
-		this.STRING_NAMED_PLACEHOLDER_REGEX = createPlaceholderRegex(
+
+		this.INDEXED_PLACEHOLDER_PATTERN = createPlaceholderRegexPattern(new JSLikeList<>(cfg.indexedPlaceholderTypes), "[0-9]*");
+		this.IDENT_NAMED_PLACEHOLDER_PATTERN = createPlaceholderRegexPattern(new JSLikeList<>(cfg.namedPlaceholderTypes), "[a-zA-Z0-9._$]+");
+		this.STRING_NAMED_PLACEHOLDER_PATTERN = createPlaceholderRegexPattern(
 						new JSLikeList<>(cfg.namedPlaceholderTypes),
 						this.createStringPattern(new JSLikeList<>(cfg.stringTypes))
 		);
@@ -124,13 +125,13 @@ private static String escapeParen(String paren) {
 		}
 	}
 
-	private static String createPlaceholderRegex(JSLikeList<String> types, String pattern) {
+	private static Pattern createPlaceholderRegexPattern(JSLikeList<String> types, String pattern) {
 		if (types.isEmpty()) {
 			return null;
 		}
 		String typesRegex = types.map(Util::escapeRegExp).join("|");
 
-		return String.format("^((?:%s)(?:%s))", typesRegex, pattern);
+		return Pattern.compile(String.format("^((?:%s)(?:%s))", typesRegex, pattern));
 	}
 
 	/**
@@ -174,7 +175,7 @@ private Token getWhitespaceToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.WHITESPACE,
-						this.WHITESPACE_REGEX
+						this.WHITESPACE_PATTERN
 		);
 	}
 
@@ -188,39 +189,39 @@ private Token getLineCommentToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.LINE_COMMENT,
-						this.LINE_COMMENT_REGEX
+						this.LINE_COMMENT_PATTERN
 		);
 	}
 
 	private Token getBlockCommentToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.BLOCK_COMMENT,
-						this.BLOCK_COMMENT_REGEX
+						this.BLOCK_COMMENT_PATTERN
 		);
 	}
 
 	private Token getStringToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.STRING,
-						this.STRING_REGEX
+						this.STRING_PATTERN
 		);
 	}
 
 	private Token getOpenParenToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.OPEN_PAREN,
-						this.OPEN_PAREN_REGEX
+						this.OPEN_PAREN_PATTERN
 		);
 	}
 
 	private Token getCloseParenToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.CLOSE_PAREN,
-						this.CLOSE_PAREN_REGEX
+						this.CLOSE_PAREN_PATTERN
 		);
 	}
 
@@ -234,28 +235,28 @@ private Token getPlaceholderToken(String input) {
 	private Token getIdentNamedPlaceholderToken(String input) {
 		return this.getPlaceholderTokenWithKey(
 						input,
-						this.IDENT_NAMED_PLACEHOLDER_REGEX,
+						this.IDENT_NAMED_PLACEHOLDER_PATTERN,
 						v -> v.substring(1)
 		);
 	}
 
 	private Token getStringNamedPlaceholderToken(String input) {
 		return this.getPlaceholderTokenWithKey(
 						input,
-						this.STRING_NAMED_PLACEHOLDER_REGEX,
+						this.STRING_NAMED_PLACEHOLDER_PATTERN,
 						v -> this.getEscapedPlaceholderKey(v.substring(2, v.length() - 1), v.substring(v.length() - 1))
 		);
 	}
 
 	private Token getIndexedPlaceholderToken(String input) {
 		return this.getPlaceholderTokenWithKey(
 						input,
-						this.INDEXED_PLACEHOLDER_REGEX,
+						this.INDEXED_PLACEHOLDER_PATTERN,
 						v -> v.substring(1)
 		);
 	}
 
-	private Token getPlaceholderTokenWithKey(String input, String regex, java.util.function.Function<String, String> parseKey) {
+	private Token getPlaceholderTokenWithKey(String input, Pattern regex, java.util.function.Function<String, String> parseKey) {
 		Token token = this.getTokenOnFirstMatch(input, TokenTypes.PLACEHOLDER, regex);
 		if (token != null) {
 			token.key = parseKey.apply(token.value);
@@ -272,7 +273,7 @@ private Token getNumberToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.NUMBER,
-						this.NUMBER_REGEX
+						this.NUMBER_PATTERN
 		);
 	}
 
@@ -281,7 +282,7 @@ private Token getOperatorToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.OPERATOR,
-						this.OPERATOR_REGEX
+						this.OPERATOR_PATTERN
 		);
 	}
 
@@ -301,48 +302,48 @@ private Token getToplevelReservedToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.RESERVED_TOPLEVEL,
-						this.RESERVED_TOPLEVEL_REGEX
+						this.RESERVED_TOPLEVEL_PATTERN
 		);
 	}
 
 	private Token getNewlineReservedToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.RESERVED_NEWLINE,
-						this.RESERVED_NEWLINE_REGEX
+						this.RESERVED_NEWLINE_PATTERN
 		);
 	}
 
 	private Token getPlainReservedToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.RESERVED,
-						this.RESERVED_PLAIN_REGEX
+						this.RESERVED_PLAIN_PATTERN
 		);
 	}
 
 	private Token getWordToken(String input) {
 		return this.getTokenOnFirstMatch(
 						input,
 						TokenTypes.WORD,
-						this.WORD_REGEX
+						this.WORD_PATTERN
 		);
 	}
 
-	private String getFirstMatch(String input, String regex) {
+	private String getFirstMatch(String input, Pattern regex) {
 		if (regex == null) {
 			return null;
 		}
 
-		Matcher matcher = Pattern.compile(regex).matcher(input);
+		Matcher matcher = regex.matcher(input);
 		if (matcher.find()) {
 			return matcher.group();
 		} else {
 			return null;
 		}
 	}
 
-	private Token getTokenOnFirstMatch(String input, TokenTypes type, String regex) {
+	private Token getTokenOnFirstMatch(String input, TokenTypes type, Pattern regex) {
 		String matches = getFirstMatch(input, regex);
 
 		if (matches != null) {
diff --git a/src/main/java/com/github/vertical_blank/sqlformatter/core/util/Util.java b/src/main/java/com/github/vertical_blank/sqlformatter/core/util/Util.java
@@ -10,6 +10,11 @@
 
 public class Util {
 
+	private static final String ESCAPE_REGEX = Stream.of("^", "$", "\\", ".", "*", "+", "*", "?", "(", ")", "[", "]", "{", "}", "|")
+			.map(spChr -> "(\\" + spChr + ")").collect(Collectors.joining("|"));
+	public static final Pattern ESCAPE_REGEX_PATTERN = Pattern.compile(ESCAPE_REGEX);
+
+
 	public static <T> List<T> nullToEmpty(List<T> ts) {
 		if (ts == null) {
 			return Collections.emptyList();
@@ -28,10 +33,7 @@ public static String trimEnd(String s) {
 	}
 
 	public static String escapeRegExp(String s) {
-		String regexp = Stream.of("^", "$", "\\", ".", "*", "+", "*", "?", "(", ")", "[", "]", "{", "}", "|")
-						.map(spChr -> "(\\" + spChr + ")").collect(Collectors.joining("|"));
-
-		return Pattern.compile(regexp).matcher(s).replaceAll("\\\\$0");
+		return ESCAPE_REGEX_PATTERN.matcher(s).replaceAll("\\\\$0");
 	}
 
 	@SafeVarargs
diff --git a/src/test/java/com/github/vertical_blank/sqlformatter/Benchmark.java b/src/test/java/com/github/vertical_blank/sqlformatter/Benchmark.java
@@ -0,0 +1,31 @@
+package com.github.vertical_blank.sqlformatter;
+
+import org.openjdk.jmh.annotations.*;
+import org.openjdk.jmh.runner.Runner;
+import org.openjdk.jmh.runner.RunnerException;
+import org.openjdk.jmh.runner.options.Options;
+import org.openjdk.jmh.runner.options.OptionsBuilder;
+
+import java.util.concurrent.TimeUnit;
+
+@BenchmarkMode(Mode.AverageTime)
+@OutputTimeUnit(TimeUnit.NANOSECONDS)
+@State(Scope.Benchmark)
+public class Benchmark {
+
+    public static final String SQL = "SELECT foo, bar, CASE baz WHEN 'one' THEN 1 WHEN 'two' THEN 2 ELSE 3 END FROM table";
+
+    public static void main(String[] args) throws RunnerException {
+        Options opt = new OptionsBuilder()
+                .include(Benchmark.class.getSimpleName())
+                .forks(1)
+                .build();
+
+        new Runner(opt).run();
+    }
+
+    @org.openjdk.jmh.annotations.Benchmark
+    public void format() {
+        SqlFormatter.format(SQL);
+    }
+}