Fix for not pushing down when count of rows is zero

rjrudin · rjrudin · commit ea116f6a7dc1 · 2023-06-06T13:39:34.000-04:00
Need to do this in the ScanBuilder so we can return "false" to Spark to let it know that we did not push down the operation. 

Also added an assertion to WriteRowsTest to help debug what seems like an intermittent failure on Jenkins.
diff --git a/src/main/java/com/marklogic/spark/reader/MarkLogicScanBuilder.java b/src/main/java/com/marklogic/spark/reader/MarkLogicScanBuilder.java
@@ -66,9 +66,13 @@ public Scan build() {
      */
     @Override
     public Filter[] pushFilters(Filter[] filters) {
+        pushedFilters = new ArrayList<>();
+        if (readContext.planAnalysisFoundNoRows()) {
+            return filters;
+        }
+
         List<Filter> unsupportedFilters = new ArrayList<>();
         List<OpticFilter> opticFilters = new ArrayList<>();
-        pushedFilters = new ArrayList<>();
         if (logger.isDebugEnabled()) {
             logger.debug("Filter count: {}", filters.length);
         }
@@ -102,6 +106,9 @@ public Filter[] pushedFilters() {
 
     @Override
     public boolean pushLimit(int limit) {
+        if (readContext.planAnalysisFoundNoRows()) {
+            return false;
+        }
         if (logger.isDebugEnabled()) {
             logger.debug("Pushing down limit: {}", limit);
         }
@@ -111,6 +118,9 @@ public boolean pushLimit(int limit) {
 
     @Override
     public boolean pushTopN(SortOrder[] orders, int limit) {
+        if (readContext.planAnalysisFoundNoRows()) {
+            return false;
+        }
         // This will be invoked when the user calls both orderBy and limit in their Spark program. If the user only
         // calls limit, then only pushLimit is called and this will not be called. If the user only calls orderBy and
         // not limit, then neither this nor pushLimit will be called.
@@ -131,6 +141,9 @@ public boolean isPartiallyPushed() {
 
     @Override
     public boolean pushOffset(int offset) {
+        if (readContext.planAnalysisFoundNoRows()) {
+            return false;
+        }
         if (logger.isDebugEnabled()) {
             logger.debug("Pushing down offset: {}", offset);
         }
@@ -140,6 +153,9 @@ public boolean pushOffset(int offset) {
 
     @Override
     public boolean pushAggregation(Aggregation aggregation) {
+        if (readContext.planAnalysisFoundNoRows()) {
+            return false;
+        }
         if (supportCompletePushDown(aggregation)) {
             if (aggregation.groupByExpressions().length > 0) {
                 Expression expr = aggregation.groupByExpressions()[0];
@@ -160,6 +176,9 @@ public boolean pushAggregation(Aggregation aggregation) {
 
     @Override
     public boolean supportCompletePushDown(Aggregation aggregation) {
+        if (readContext.planAnalysisFoundNoRows()) {
+            return false;
+        }
         AggregateFunc[] expressions = aggregation.aggregateExpressions();
         if (expressions.length == 1 && expressions[0] instanceof CountStar) {
             // If a count() is used, it's supported if there's no groupBy - i.e. just doing a count() by itself -
@@ -171,6 +190,9 @@ public boolean supportCompletePushDown(Aggregation aggregation) {
 
     @Override
     public void pruneColumns(StructType requiredSchema) {
+        if (readContext.planAnalysisFoundNoRows()) {
+            return;
+        }
         if (requiredSchema.equals(readContext.getSchema())) {
             if (logger.isDebugEnabled()) {
                 logger.debug("The schema to push down is equal to the existing schema, so not pushing it down.");
diff --git a/src/main/java/com/marklogic/spark/reader/ReadContext.java b/src/main/java/com/marklogic/spark/reader/ReadContext.java
@@ -144,60 +144,48 @@ private PlanBuilder.Plan buildPlanForBucket(RowManager rowManager, PlanAnalysis.
     }
 
     void pushDownFiltersIntoOpticQuery(List<OpticFilter> opticFilters) {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            this.opticFilters = opticFilters;
-            addOperatorToPlan(PlanUtil.buildWhere(opticFilters));
-        }
+        this.opticFilters = opticFilters;
+        addOperatorToPlan(PlanUtil.buildWhere(opticFilters));
     }
 
     void pushDownLimit(int limit) {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            addOperatorToPlan(PlanUtil.buildLimit(limit));
-        }
+        addOperatorToPlan(PlanUtil.buildLimit(limit));
     }
 
     void pushDownOffset(int offset) {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            addOperatorToPlan(PlanUtil.buildOffset(offset));
-        }
+        addOperatorToPlan(PlanUtil.buildOffset(offset));
     }
 
     void pushDownTopN(SortOrder[] orders, int limit) {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            for (SortOrder sortOrder : orders) {
-                addOperatorToPlan(PlanUtil.buildOrderBy(sortOrder));
-            }
-            pushDownLimit(limit);
+        for (SortOrder sortOrder : orders) {
+            addOperatorToPlan(PlanUtil.buildOrderBy(sortOrder));
         }
+        pushDownLimit(limit);
     }
 
     void pushDownCount() {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            addOperatorToPlan(PlanUtil.buildGroupByCount());
-            // As will likely be the case for all aggregations, the schema needs to be modified.
-            this.schema = new StructType().add("count", DataTypes.LongType);
-            modifyPlanAnalysisToUseSingleBucket();
-        }
+        addOperatorToPlan(PlanUtil.buildGroupByCount());
+        // As will likely be the case for all aggregations, the schema needs to be modified.
+        this.schema = new StructType().add("count", DataTypes.LongType);
+        modifyPlanAnalysisToUseSingleBucket();
     }
 
     void pushDownGroupByCount(Expression groupBy) {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            final String columnName = PlanUtil.expressionToColumnName(groupBy);
-            addOperatorToPlan(PlanUtil.buildGroupByCount(columnName));
-
-            StructField columnField = null;
-            for (StructField field : this.schema.fields()) {
-                if (columnName.equals(field.name())) {
-                    columnField = field;
-                    break;
-                }
-            }
-            if (columnField == null) {
-                throw new IllegalArgumentException("Unable to find groupBy column in schema; groupBy expression: " + groupBy.describe());
+        final String columnName = PlanUtil.expressionToColumnName(groupBy);
+        addOperatorToPlan(PlanUtil.buildGroupByCount(columnName));
+
+        StructField columnField = null;
+        for (StructField field : this.schema.fields()) {
+            if (columnName.equals(field.name())) {
+                columnField = field;
+                break;
             }
-            this.schema = new StructType().add(columnField).add("count", DataTypes.LongType);
-            modifyPlanAnalysisToUseSingleBucket();
         }
+        if (columnField == null) {
+            throw new IllegalArgumentException("Unable to find groupBy column in schema; groupBy expression: " + groupBy.describe());
+        }
+        this.schema = new StructType().add(columnField).add("count", DataTypes.LongType);
+        modifyPlanAnalysisToUseSingleBucket();
     }
 
     /**
@@ -213,16 +201,14 @@ private void modifyPlanAnalysisToUseSingleBucket() {
     }
 
     void pushDownRequiredSchema(StructType requiredSchema) {
-        if (planAnalysisFoundAtLeastOneRow()) {
-            this.schema = requiredSchema;
-            addOperatorToPlan(PlanUtil.buildSelect(requiredSchema));
-        }
+        this.schema = requiredSchema;
+        addOperatorToPlan(PlanUtil.buildSelect(requiredSchema));
     }
 
-    private boolean planAnalysisFoundAtLeastOneRow() {
+    boolean planAnalysisFoundNoRows() {
         // The planAnalysis will be null if no rows were found, which internal/viewinfo unfortunately throws an error
         // on. None of the push down operations need to be applied in this scenario.
-        return planAnalysis != null;
+        return planAnalysis == null;
     }
 
     /**
diff --git a/src/test/java/com/marklogic/spark/AbstractIntegrationTest.java b/src/test/java/com/marklogic/spark/AbstractIntegrationTest.java
@@ -38,6 +38,7 @@ public class AbstractIntegrationTest extends AbstractSpringMarkLogicTest {
     protected final static String TEST_USERNAME = "spark-test-user";
     protected final static String TEST_PASSWORD = "spark";
     protected final static String CONNECTOR_IDENTIFIER = "com.marklogic.spark";
+    protected final static String NO_AUTHORS_QUERY = "op.fromView('Medical', 'NoAuthors', '')";
 
     private static MarkLogicVersion markLogicVersion;
 
diff --git a/src/test/java/com/marklogic/spark/reader/PushDownCountTest.java b/src/test/java/com/marklogic/spark/reader/PushDownCountTest.java
@@ -38,4 +38,16 @@ void count() {
             "that regardless of the number of matching rows, MarkLogic can efficiently determine a count in a single " +
             "request.");
     }
+
+    @Test
+    void noRowsFound() {
+        long count = newDefaultReader()
+            .option(Options.READ_OPTIC_DSL, NO_AUTHORS_QUERY)
+            .load()
+            .count();
+
+        assertEquals(0, count);
+        assertEquals(0, countOfRowsReadFromMarkLogic, "When no rows exist, neither the count() operation nor the " +
+            "pruneColumns() operation should be pushed down since there's no optimization to be done.");
+    }
 }
diff --git a/src/test/java/com/marklogic/spark/reader/PushDownFilterTest.java b/src/test/java/com/marklogic/spark/reader/PushDownFilterTest.java
@@ -58,6 +58,17 @@ void equalToWithViewQualifier() {
         assertEquals(4, countOfRowsReadFromMarkLogic);
     }
 
+    @Test
+    void noRowsFound() {
+        assertEquals(0, newDefaultReader()
+            .option(Options.READ_OPTIC_DSL, NO_AUTHORS_QUERY)
+            .load()
+            .filter("CitationID == 1")
+            .collectAsList()
+            .size());
+        assertEquals(0, countOfRowsReadFromMarkLogic);
+    }
+
     @Test
     void equalToWithWhere() {
         assertEquals(2, getCountOfRowsWithFilter("CitationID = 5"));
diff --git a/src/test/java/com/marklogic/spark/reader/PushDownGroupByCountTest.java b/src/test/java/com/marklogic/spark/reader/PushDownGroupByCountTest.java
@@ -39,6 +39,20 @@ void groupByWithNoQualifier() {
         assertEquals(1l, (long) rows.get(0).getAs("CitationID"));
     }
 
+    @Test
+    void noRowsFound() {
+        List<Row> rows = newDefaultReader()
+            .option(Options.READ_OPTIC_DSL, NO_AUTHORS_QUERY)
+            .load()
+            .groupBy("CitationID")
+            .count()
+            .orderBy("CitationID")
+            .collectAsList();
+
+        assertEquals(0, rows.size());
+        assertEquals(0, countOfRowsReadFromMarkLogic);
+    }
+
     @Test
     void groupByWithView() {
         List<Row> rows = newDefaultReader()
diff --git a/src/test/java/com/marklogic/spark/reader/PushDownOffsetTest.java b/src/test/java/com/marklogic/spark/reader/PushDownOffsetTest.java
@@ -15,6 +15,7 @@
  */
 package com.marklogic.spark.reader;
 
+import com.marklogic.spark.Options;
 import org.apache.spark.sql.Row;
 import org.junit.jupiter.api.Test;
 
@@ -36,6 +37,18 @@ void offset() {
         assertEquals(7, countOfRowsReadFromMarkLogic);
     }
 
+    @Test
+    void noRowsFound() {
+        List<Row> rows = newDefaultReader()
+            .option(Options.READ_OPTIC_DSL, NO_AUTHORS_QUERY)
+            .load()
+            .offset(1)
+            .collectAsList();
+
+        assertEquals(0, rows.size());
+        assertEquals(0, countOfRowsReadFromMarkLogic);
+    }
+
     @Test
     void limitBeforeOffset() {
         List<Row> rows = newDatasetOrderedByCitationIDWithOneBucket()
diff --git a/src/test/java/com/marklogic/spark/reader/PushDownRequiredColumnsTest.java b/src/test/java/com/marklogic/spark/reader/PushDownRequiredColumnsTest.java
@@ -48,6 +48,18 @@ void withNoQualifier() {
         assertEquals("Humbee", rows.get(0).getAs("LastName"));
     }
 
+    @Test
+    void noRowsFound() {
+        List<Row> rows = newDefaultReader()
+            .option(Options.READ_OPTIC_DSL, NO_AUTHORS_QUERY)
+            .load()
+            .select("CitationID")
+            .collectAsList();
+
+        assertEquals(0, rows.size());
+        assertEquals(0, countOfRowsReadFromMarkLogic);
+    }
+
     @Test
     void withSchemaAndViewQualifiers() {
         List<Row> rows = newDefaultReader()
diff --git a/src/test/java/com/marklogic/spark/reader/ReadRowsTest.java b/src/test/java/com/marklogic/spark/reader/ReadRowsTest.java
@@ -71,7 +71,7 @@ void emptyQualifier() {
     @Test
     void queryReturnsZeroRows() {
         List<Row> rows = newDefaultReader()
-            .option(Options.READ_OPTIC_DSL, "op.fromView('Medical', 'NoAuthors')")
+            .option(Options.READ_OPTIC_DSL, NO_AUTHORS_QUERY)
             .load()
             .collectAsList();
 
diff --git a/src/test/java/com/marklogic/spark/writer/WriteRowsTest.java b/src/test/java/com/marklogic/spark/writer/WriteRowsTest.java
@@ -24,6 +24,7 @@
 import java.io.IOException;
 
 import static org.junit.jupiter.api.Assertions.assertEquals;
+import static org.junit.jupiter.api.Assertions.assertNotNull;
 import static org.junit.jupiter.api.Assertions.assertThrows;
 import static org.junit.jupiter.api.Assertions.assertTrue;
 
@@ -191,6 +192,7 @@ void dontAbortOnFailure() {
     }
 
     private void verifyFailureIsDueToLackOfPermission(SparkException ex) {
+        assertNotNull(ex.getCause(), "Unexpected exception with no cause: " + ex.getClass() + "; " + ex.getMessage());
         assertTrue(ex.getCause() instanceof IOException, "Unexpected cause: " + ex.getCause().getClass());
         assertTrue(ex.getCause().getMessage().contains("Server Message: You do not have permission to this method and URL"),
             "Unexpected cause message: " + ex.getCause().getMessage());
diff --git a/src/test/ml-schemas/tde/no-authors.json b/src/test/ml-schemas/tde/no-authors.json
@@ -7,6 +7,11 @@
         "schemaName": "Medical",
         "viewName": "NoAuthors",
         "columns": [
+          {
+            "name": "CitationID",
+            "scalarType": "long",
+            "val": "ID"
+          },
           {
             "name": "LastName",
             "scalarType": "string",