Merge GH PR #9404

nepal · maximyurchuk · commit 3d93c5084c3b · 2024-11-12T11:34:44.000+03:00
commit_hash:d780798556aedbe2be898d69185380f2ecb95f9c
diff --git a/yql/essentials/parser/lexer_common/lexer.h b/yql/essentials/parser/lexer_common/lexer.h
@@ -18,7 +18,9 @@ struct TParsedToken {
     // TODO: TStringBuf for Name & Content
     TString Name;
     TString Content;
-    // Position of first token symbol
+    // Position of first token byte/symbol
+    // When antlr3 lexer is used, LinePos is a position as in a byte array,
+    // but when antlr4 lexer is used, LinePos is a position as in a symbol array,
     ui32 Line = 0;    // starts from 1
     ui32 LinePos = 0; // starts from 0
 };
diff --git a/yql/essentials/parser/lexer_common/tokens.cpp b/yql/essentials/parser/lexer_common/tokens.cpp
@@ -1,6 +1,5 @@
 #include "lexer.h"
 
-
 namespace NSQLTranslation {
 
 IOutputStream& OutputTokens(IOutputStream& out, TParsedTokenList::const_iterator begin, TParsedTokenList::const_iterator end) {
@@ -18,5 +17,4 @@ bool Tokenize(ILexer& lexer, const TString& query, const TString& queryName, TPa
     return lexer.Tokenize(query, queryName, onNextToken, issues, maxErrors);
 }
 
-
 }
diff --git a/yql/essentials/parser/proto_ast/antlr3/proto_ast_antlr3.h b/yql/essentials/parser/proto_ast/antlr3/proto_ast_antlr3.h
@@ -60,6 +60,7 @@ namespace NProtoAST {
             try {
                 Lexer.ReportErrors(&errors);
                 auto src = Lexer.get_tokSource();
+
                 for (;;) {
                     auto token = src->nextToken();
                     auto type = token->getType();
@@ -69,6 +70,7 @@ namespace NProtoAST {
                     last.Content = token->getText();
                     last.Line = token->get_line();
                     last.LinePos = token->get_charPositionInLine();
+
                     onNextToken(std::move(last));
                     if (isEOF) {
                         break;
diff --git a/yql/essentials/parser/proto_ast/antlr4/proto_ast_antlr4.h b/yql/essentials/parser/proto_ast/antlr4/proto_ast_antlr4.h
@@ -89,6 +89,11 @@ namespace NProtoAST {
 
         void CollectTokens(IErrorCollector& errors, const NSQLTranslation::ILexer::TTokenCallback& onNextToken) {
             try {
+                bool error = false;
+                typename antlr4::YqlErrorListener listener(&errors, &error);
+                Lexer.removeErrorListeners();
+                Lexer.addErrorListener(&listener);
+
                 for (;;) {
                     auto token = Lexer.nextToken();
                     auto type = token->getType();
diff --git a/yql/essentials/sql/v1/SQLv1.g.in b/yql/essentials/sql/v1/SQLv1.g.in
@@ -1724,7 +1724,6 @@ MINUS:         '-';
 TILDA:         '~';
 ASTERISK:      '*';
 SLASH:         '/';
-BACKSLASH:     '\\';
 PERCENT:       '%';
 SEMICOLON:     ';';
 DOT:           '.';
@@ -1736,9 +1735,6 @@ COLON:         ':';
 COMMAT:        '@';
 DOUBLE_COMMAT: '@@';
 DOLLAR:        '$';
-QUOTE_DOUBLE:  '"'; // This comment for fix syntax highlighting "
-QUOTE_SINGLE:  '\'';
-BACKTICK:      '`';
 LBRACE_CURLY:  '{';
 RBRACE_CURLY:  '}';
 CARET:         '^';
@@ -1747,6 +1743,11 @@ ARROW:         '->';
 RBRACE_SQUARE: ']';
 LBRACE_SQUARE: '['; // pair ]
 
+fragment BACKSLASH:     '\\';
+fragment QUOTE_DOUBLE:  '"';
+fragment QUOTE_SINGLE:  '\'';
+fragment BACKTICK:      '`';
+
 // http://www.antlr.org/wiki/pages/viewpage.action?pageId=1782
 fragment A:('a'|'A');
 fragment B:('b'|'B');
diff --git a/yql/essentials/sql/v1/SQLv1Antlr4.g.in b/yql/essentials/sql/v1/SQLv1Antlr4.g.in
@@ -1723,7 +1723,6 @@ MINUS:         '-';
 TILDA:         '~';
 ASTERISK:      '*';
 SLASH:         '/';
-BACKSLASH:     '\\';
 PERCENT:       '%';
 SEMICOLON:     ';';
 DOT:           '.';
@@ -1735,9 +1734,6 @@ COLON:         ':';
 COMMAT:        '@';
 DOUBLE_COMMAT: '@@';
 DOLLAR:        '$';
-QUOTE_DOUBLE:  '"'; // This comment for fix syntax highlighting "
-QUOTE_SINGLE:  '\'';
-BACKTICK:      '`';
 LBRACE_CURLY:  '{';
 RBRACE_CURLY:  '}';
 CARET:         '^';
@@ -1746,6 +1742,11 @@ ARROW:         '->';
 RBRACE_SQUARE: ']';
 LBRACE_SQUARE: '['; // pair ]
 
+fragment BACKSLASH:     '\\';
+fragment QUOTE_DOUBLE:  '"';
+fragment QUOTE_SINGLE:  '\'';
+fragment BACKTICK:      '`';
+
 // http://www.antlr.org/wiki/pages/viewpage.action?pageId=1782
 fragment A:('a'|'A');
 fragment B:('b'|'B');
diff --git a/yql/essentials/sql/v1/format/sql_format.cpp b/yql/essentials/sql/v1/format/sql_format.cpp
@@ -26,6 +26,7 @@ using namespace NSQLv1Generated;
 
 using NSQLTranslation::TParsedToken;
 using NSQLTranslation::TParsedTokenList;
+using NSQLTranslationV1::IsProbablyKeyword;
 using TTokenIterator = TParsedTokenList::const_iterator;
 
 TTokenIterator SkipWS(TTokenIterator curr, TTokenIterator end) {
@@ -55,7 +56,7 @@ bool Validate(const TParsedTokenList& query, const TParsedTokenList& formattedQu
             if (in->Name != out->Name) {
                 return false;
             }
-            if (AsciiEqualsIgnoreCase(in->Name, in->Content)) {
+            if (IsProbablyKeyword(*in)) {
                 if (!AsciiEqualsIgnoreCase(in->Content, out->Content)) {
                     return false;
                 }
diff --git a/yql/essentials/sql/v1/lexer/lexer.cpp b/yql/essentials/sql/v1/lexer/lexer.cpp
@@ -9,6 +9,8 @@
 #include <yql/essentials/parser/proto_ast/gen/v1_antlr4/SQLv1Antlr4Lexer.h>
 #include <yql/essentials/parser/proto_ast/gen/v1_ansi_antlr4/SQLv1Antlr4Lexer.h>
 
+#include <util/string/ascii.h>
+
 #if defined(_tsan_enabled_)
 #include <util/system/mutex.h>
 #endif
@@ -74,4 +76,8 @@ NSQLTranslation::ILexer::TPtr MakeLexer(bool ansi, bool antlr4) {
     return NSQLTranslation::ILexer::TPtr(new TV1Lexer(ansi, antlr4));
 }
 
+bool IsProbablyKeyword(const NSQLTranslation::TParsedToken& token) {
+    return AsciiEqualsIgnoreCase(token.Name, token.Content);
+}
+
 } //  namespace NSQLTranslationV1
diff --git a/yql/essentials/sql/v1/lexer/lexer.h b/yql/essentials/sql/v1/lexer/lexer.h
@@ -6,4 +6,10 @@ namespace NSQLTranslationV1 {
 
 NSQLTranslation::ILexer::TPtr MakeLexer(bool ansi, bool antlr4);
 
+// "Probably" because YQL keyword can be an identifier
+// depending on a query context. For example
+// in SELECT * FROM group - group is an identifier, but
+// in SELECT * FROM ... GROUP BY ... - group is a keyword.
+bool IsProbablyKeyword(const NSQLTranslation::TParsedToken& token);
+
 }
diff --git a/yql/essentials/sql/v1/lexer/lexer_ut.cpp b/yql/essentials/sql/v1/lexer/lexer_ut.cpp
@@ -0,0 +1,185 @@
+#include "lexer.h"
+
+#include <yql/essentials/core/issue/yql_issue.h>
+#include <yql/essentials/sql/settings/translation_settings.h>
+
+#include <library/cpp/testing/unittest/registar.h>
+
+using namespace NSQLTranslation;
+using namespace NSQLTranslationV1;
+
+std::pair<TParsedTokenList, NYql::TIssues> Tokenize(ILexer::TPtr& lexer, TString queryUtf8) {
+    TParsedTokenList tokens;
+    NYql::TIssues issues;
+    Tokenize(*lexer, queryUtf8, "Query", tokens, issues, SQL_MAX_PARSER_ERRORS);
+    return {tokens, issues};
+}
+
+TVector<TString> GetIssueMessages(ILexer::TPtr& lexer, TString queryUtf8) {
+    TVector<TString> messages;
+    for (const auto& issue : Tokenize(lexer, queryUtf8).second) {
+        messages.emplace_back(issue.ToString(/* oneLine = */ true));
+    }
+    return messages;
+}
+
+TVector<TString> GetTokenViews(ILexer::TPtr& lexer, TString queryUtf8) {
+    TVector<TString> names;
+    for (auto& token : Tokenize(lexer, queryUtf8).first) {
+        TString view = std::move(token.Name);
+        if (view == "ID_PLAIN" || view == "STRING_VALUE") {
+            view.append(" (");
+            view.append(token.Content);
+            view.append(")");
+        }
+        names.emplace_back(std::move(view));
+    }
+    return names;
+}
+
+void AssertEquivialent(const TParsedToken& lhs, const TParsedToken& rhs) {
+    if (lhs.Name == "EOF" && rhs.Name == "EOF") {
+        return;
+    }
+
+    UNIT_ASSERT_VALUES_EQUAL(lhs.Name, rhs.Name);
+    UNIT_ASSERT_VALUES_EQUAL(lhs.Content, rhs.Content);
+    UNIT_ASSERT_VALUES_EQUAL(lhs.Line, rhs.Line);
+}
+
+void AssertEquivialent(const TParsedTokenList& lhs, const TParsedTokenList& rhs) {
+    UNIT_ASSERT_VALUES_EQUAL(lhs.size(), rhs.size());
+    for (size_t i = 0; i < lhs.size(); ++i) {
+        AssertEquivialent(lhs.at(i), rhs.at(i));
+    }
+}
+
+Y_UNIT_TEST_SUITE(SQLv1Lexer) {
+    Y_UNIT_TEST(AntlrVersionIndependent) {
+        const TVector<TString> queriesUtf8 = {
+            "",
+            "   ",
+            "SELECT",
+            "SEL", // identifier
+            "SELECT FROM test",
+            "SELECT * FROM",
+            "   SELECT * FROM ",
+            "SELECT \"\xF0\x9F\x98\x8A\" FROM ydb",
+            (
+                "SELECT \"\xF0\x9F\x98\x8A Hello, друзья\", count, name\n"
+                "FROM table -- главная таблица 数据库 \n"
+                "WHERE count < 6\n"
+                "  AND name = \"可靠性\"\n"
+                "  AND count > 12"),
+            "\"select\"select",
+        };
+
+        auto lexer3 = MakeLexer(/* ansi = */ false, /* antlr4 = */ false);
+        auto lexer4 = MakeLexer(/* ansi = */ false, /* antlr4 = */ true);
+
+        for (const auto& query : queriesUtf8) {
+            auto [tokens3, issues3] = Tokenize(lexer3, query);
+            auto [tokens4, issues4] = Tokenize(lexer4, query);
+            AssertEquivialent(tokens3, tokens4);
+            UNIT_ASSERT(issues3.Empty());
+            UNIT_ASSERT(issues4.Empty());
+        }
+    }
+
+    TVector<TString> InvalidQueries();
+
+    void TestInvalidTokensSkipped(bool antlr4, const TVector<TVector<TString>>& expected) {
+        auto lexer = MakeLexer(/* ansi = */ false, antlr4);
+
+        auto input = InvalidQueries();
+        UNIT_ASSERT_VALUES_EQUAL(input.size(), expected.size());
+
+        for (size_t i = 0; i < input.size(); ++i) {
+            UNIT_ASSERT_VALUES_EQUAL(GetTokenViews(lexer, input[i]), expected[i]);
+        }
+    }
+
+    TVector<TString> InvalidQueries() {
+        return {
+            /* 0: */ "\xF0\x9F\x98\x8A",
+            /* 1: */ "select \"aaaa",
+            /* 2: */ "\"\\\"",
+            /* 3: */ "\xF0\x9F\x98\x8A SELECT * FR",
+            /* 4: */ "! SELECT *  from",
+            /* 5: */ "\xF0\x9F\x98\x8Aselect ! from",
+            /* 6: */ "\"",
+            /* 7: */ "!select",
+            /* 8: */ "SELECT \\\"\xF0\x9F\x98\x8A\\\" FROM test",
+        };
+    }
+
+    Y_UNIT_TEST(ErrorRecoveryAntlr3) {
+        TVector<TVector<TString>> actual = {
+            /* 0: */ {"EOF"},
+            /* 1: */ {"SELECT", "WS", "EOF"},
+            /* 2: */ {"EOF"},
+            /* 3: */ {"WS", "SELECT", "WS", "ASTERISK", "WS", "ID_PLAIN (FR)", "EOF"},
+            /* 4: */ {"ID_PLAIN (ELECT)", "WS", "ASTERISK", "WS", "WS", "FROM", "EOF"},
+            /* 5: */ {"SELECT", "WS", "ID_PLAIN (rom)", "EOF"},
+            /* 6: */ {"EOF"},
+            /* 7: */ {"ID_PLAIN (lect)", "EOF"},
+            /* 8: */ {"SELECT", "WS", "EOF"},
+        };
+        TestInvalidTokensSkipped(/* antlr4 = */ false, actual);
+    }
+
+    Y_UNIT_TEST(ErrorRecoveryAntlr4) {
+        TVector<TVector<TString>> actual = {
+            /* 0: */ {"EOF"},
+            /* 1: */ {"SELECT", "WS", "EOF"},
+            /* 2: */ {"EOF"},
+            /* 3: */ {"WS", "SELECT", "WS", "ASTERISK", "WS", "ID_PLAIN (FR)", "EOF"},
+            /* 4: */ {"SELECT", "WS", "ASTERISK", "WS", "WS", "FROM", "EOF"},
+            /* 5: */ {"SELECT", "WS", "FROM", "EOF"},
+            /* 6: */ {"EOF"},
+            /* 7: */ {"ID_PLAIN (elect)", "EOF"},
+            /* 8: */ {"SELECT", "WS", "EOF"},
+        };
+        TestInvalidTokensSkipped(/* antlr4 = */ true, actual);
+    }
+
+    Y_UNIT_TEST(IssuesCollected) {
+        auto lexer3 = MakeLexer(/* ansi = */ false, /* antlr4 = */ false);
+        auto lexer4 = MakeLexer(/* ansi = */ false, /* antlr4 = */ true);
+
+        for (const auto& query : InvalidQueries()) {
+            auto issues3 = GetIssueMessages(lexer3, query);
+            auto issues4 = GetIssueMessages(lexer4, query);
+
+            UNIT_ASSERT(!issues3.empty());
+            UNIT_ASSERT(!issues4.empty());
+        }
+    }
+
+    Y_UNIT_TEST(IssueMessagesAntlr3) {
+        auto lexer3 = MakeLexer(/* ansi = */ false, /* antlr4 = */ false);
+
+        auto actual = GetIssueMessages(lexer3, "\xF0\x9F\x98\x8A SELECT * FR");
+
+        TVector<TString> expected = {
+            "<main>:1:0: Error: Unexpected character '\xF0\x9F\x98\x8A' (Unicode character <128522>) : cannot match to any predicted input...",
+            "<main>:1:1: Error: Unexpected character : cannot match to any predicted input...",
+            "<main>:1:2: Error: Unexpected character : cannot match to any predicted input...",
+            "<main>:1:3: Error: Unexpected character : cannot match to any predicted input...",
+        };
+
+        UNIT_ASSERT_VALUES_EQUAL(actual, expected);
+    }
+
+    Y_UNIT_TEST(IssueMessagesAntlr4) {
+        auto lexer4 = MakeLexer(/* ansi = */ false, /* antlr4 = */ true);
+
+        auto actual = GetIssueMessages(lexer4, "\xF0\x9F\x98\x8A SELECT * FR");
+
+        TVector<TString> expected = {
+            "<main>:1:0: Error: token recognition error at: '\xF0\x9F\x98\x8A'",
+        };
+
+        UNIT_ASSERT_VALUES_EQUAL(actual, expected);
+    }
+}
diff --git a/yql/essentials/sql/v1/lexer/ut/ya.make b/yql/essentials/sql/v1/lexer/ut/ya.make
@@ -0,0 +1,12 @@
+UNITTEST_FOR(yql/essentials/sql/v1/lexer)
+
+PEERDIR(
+    yql/essentials/core/issue
+    yql/essentials/parser/lexer_common
+)
+
+SRCS(
+    lexer_ut.cpp
+)
+
+END()
diff --git a/yql/essentials/sql/v1/lexer/ya.make b/yql/essentials/sql/v1/lexer/ya.make
@@ -17,3 +17,7 @@ SUPPRESSIONS(
 )
 
 END()
+
+RECURSE_FOR_TESTS(
+    ut
+)
diff --git a/yql/essentials/sql/v1/sql_ut_antlr4.cpp b/yql/essentials/sql/v1/sql_ut_antlr4.cpp
@@ -3004,7 +3004,7 @@ Y_UNIT_TEST_SUITE(SqlToYQLErrors) {
         UNIT_ASSERT(!res.Root);
 
         TString a1 = Err2Str(res);
-        TString a2(R"foo(<main>:1:16: Error: Unknown cluster: edar
+        TString a2(R"foo(<main>:1:14: Error: token recognition error at: 'с'
 )foo");
 
         UNIT_ASSERT_NO_DIFF(a1, a2);
@@ -3016,8 +3016,8 @@ Y_UNIT_TEST_SUITE(SqlToYQLErrors) {
         UNIT_ASSERT(!res1.Root);
         UNIT_ASSERT(!res2.Root);
 
-        UNIT_ASSERT_NO_DIFF(Err2Str(res1), "<main>:1:12: Error: mismatched input 'b' expecting {<EOF>, ';'}\n");
-        UNIT_ASSERT_NO_DIFF(Err2Str(res2), "<main>:1:12: Error: mismatched input 'b' expecting {<EOF>, ';'}\n");
+        UNIT_ASSERT_NO_DIFF(Err2Str(res1), "<main>:1:13: Error: token recognition error at: '';'\n");
+        UNIT_ASSERT_NO_DIFF(Err2Str(res2), "<main>:1:13: Error: token recognition error at: '\";'\n");
     }
 
     Y_UNIT_TEST(InvalidHexInStringLiteral) {
@@ -3055,7 +3055,7 @@ Y_UNIT_TEST_SUITE(SqlToYQLErrors) {
     Y_UNIT_TEST(InvalidStringFromTable) {
         NYql::TAstParseResult res = SqlToYql("select \"FOO\"\"BAR from plato.foo");
         UNIT_ASSERT(!res.Root);
-        UNIT_ASSERT_NO_DIFF(Err2Str(res), "<main>:1:12: Error: mismatched input '\"' expecting {<EOF>, ';'}\n");
+        UNIT_ASSERT_NO_DIFF(Err2Str(res), "<main>:1:12: Error: token recognition error at: '\"BAR from plato.foo'\n");
     }
 
     Y_UNIT_TEST(InvalidDoubleAtStringFromTable) {
diff --git a/yql/essentials/udfs/common/file/file_udf.cpp b/yql/essentials/udfs/common/file/file_udf.cpp
diff --git a/yql/essentials/utils/line_split.cpp b/yql/essentials/utils/line_split.cpp
diff --git a/yql/essentials/utils/line_split.h b/yql/essentials/utils/line_split.h
diff --git a/yql/essentials/utils/ya.make b/yql/essentials/utils/ya.make

Original file line number	Diff line number	Diff line change
`@@ -1,6 +1,5 @@`
`1`	`1`	`#include "lexer.h"`
`2`	`2`
`3`		`-`
`4`	`3`	`namespace NSQLTranslation {`
`5`	`4`
`6`	`5`	`IOutputStream& OutputTokens(IOutputStream& out, TParsedTokenList::const_iterator begin, TParsedTokenList::const_iterator end) {`
`@@ -18,5 +17,4 @@ bool Tokenize(ILexer& lexer, const TString& query, const TString& queryName, TPa`
`18`	`17`	`return lexer.Tokenize(query, queryName, onNextToken, issues, maxErrors);`
`19`	`18`	`}`
`20`	`19`
`21`		`-`
`22`	`20`	`}`
Original file line number	Diff line number	Diff line change
`@@ -26,6 +26,7 @@ using namespace NSQLv1Generated;`
`26`	`26`
`27`	`27`	`using NSQLTranslation::TParsedToken;`
`28`	`28`	`using NSQLTranslation::TParsedTokenList;`
	`29`	`+using NSQLTranslationV1::IsProbablyKeyword;`
`29`	`30`	`using TTokenIterator = TParsedTokenList::const_iterator;`
`30`	`31`
`31`	`32`	`TTokenIterator SkipWS(TTokenIterator curr, TTokenIterator end) {`
`@@ -55,7 +56,7 @@ bool Validate(const TParsedTokenList& query, const TParsedTokenList& formattedQu`
`55`	`56`	`if (in->Name != out->Name) {`
`56`	`57`	`return false;`
`57`	`58`	`}`
`58`		`- if (AsciiEqualsIgnoreCase(in->Name, in->Content)) {`
	`59`	`+ if (IsProbablyKeyword(*in)) {`
`59`	`60`	`if (!AsciiEqualsIgnoreCase(in->Content, out->Content)) {`
`60`	`61`	`return false;`
`61`	`62`	`}`
Original file line number	Diff line number	Diff line change
`@@ -6,4 +6,10 @@ namespace NSQLTranslationV1 {`
`6`	`6`
`7`	`7`	`NSQLTranslation::ILexer::TPtr MakeLexer(bool ansi, bool antlr4);`
`8`	`8`
	`9`	`+// "Probably" because YQL keyword can be an identifier`
	`10`	`+// depending on a query context. For example`
	`11`	`+// in SELECT * FROM group - group is an identifier, but`
	`12`	`+// in SELECT * FROM ... GROUP BY ... - group is a keyword.`
	`13`	`+bool IsProbablyKeyword(const NSQLTranslation::TParsedToken& token);`
	`14`	`+`
`9`	`15`	`}`