adding more tests (#577)

ahosler · web-flow · commit f17b49bd11e0 · 2024-02-07T14:00:46.000Z
diff --git a/ads/opctl/operator/lowcode/anomaly/model/anomaly_dataset.py b/ads/opctl/operator/lowcode/anomaly/model/anomaly_dataset.py
@@ -7,7 +7,6 @@
 from ..operator_config import AnomalyOperatorSpec
 from ads.opctl.operator.lowcode.common.utils import (
     default_signer,
-    load_data,
     merge_category_columns,
 )
 from ads.opctl.operator.lowcode.common.data import AbstractData
diff --git a/ads/opctl/operator/lowcode/anomaly/model/base_model.py b/ads/opctl/operator/lowcode/anomaly/model/base_model.py
@@ -23,7 +23,6 @@
 from ..const import SupportedModels
 from ads.opctl.operator.lowcode.common.utils import (
     human_time_friendly,
-    load_data,
     enable_print,
     disable_print,
     write_data,
@@ -325,17 +324,17 @@ def _fallback_build_model(self):
         for target, df in self.datasets.full_data_dict.items():
             est = linear_model.SGDOneClassSVM(random_state=42)
             est.fit(df[target].values.reshape(-1, 1))
-            y_pred = np.vectorize(self.outlier_map.get)(est.predict(df[target].values.reshape(-1, 1)))
+            y_pred = np.vectorize(self.outlier_map.get)(
+                est.predict(df[target].values.reshape(-1, 1))
+            )
             scores = est.score_samples(df[target].values.reshape(-1, 1))
 
-            anomaly = pd.DataFrame({
-                date_column: df[date_column],
-                OutputColumns.ANOMALY_COL: y_pred
-            }).reset_index(drop=True)
-            score = pd.DataFrame({
-                date_column: df[date_column],
-                OutputColumns.SCORE_COL: scores
-            }).reset_index(drop=True)
+            anomaly = pd.DataFrame(
+                {date_column: df[date_column], OutputColumns.ANOMALY_COL: y_pred}
+            ).reset_index(drop=True)
+            score = pd.DataFrame(
+                {date_column: df[date_column], OutputColumns.SCORE_COL: scores}
+            ).reset_index(drop=True)
             anomaly_output.add_output(target, anomaly, score)
 
         return anomaly_output
diff --git a/ads/opctl/operator/lowcode/common/data.py b/ads/opctl/operator/lowcode/common/data.py
@@ -52,15 +52,7 @@ def get_data_for_series(self, series_id):
     def _load_data(self, data_spec, **kwargs):
         loading_start_time = time.time()
         try:
-            raw_data = load_data(
-                filename=data_spec.url,
-                format=data_spec.format,
-                columns=data_spec.columns,
-                connect_args=data_spec.connect_args,
-                sql=data_spec.sql,
-                table_name=data_spec.table_name,
-                limit=data_spec.limit,
-            )
+            raw_data = load_data(data_spec)
         except InvalidParameterError as e:
             e.args = e.args + (f"Invalid Parameter: {self.name}",)
             raise e
diff --git a/ads/opctl/operator/lowcode/common/utils.py b/ads/opctl/operator/lowcode/common/utils.py
@@ -27,6 +27,7 @@
     DataMismatchError,
 )
 from ads.opctl.operator.common.operator_config import OutputDirectory
+from ads.common.object_storage_details import ObjectStorageDetails
 
 
 def call_pandas_fsspec(pd_fn, filename, storage_options, **kwargs):
@@ -42,17 +43,21 @@ def call_pandas_fsspec(pd_fn, filename, storage_options, **kwargs):
     return pd_fn(filename, storage_options=storage_options, **kwargs)
 
 
-def load_data(
-    filename=None,
-    format=None,
-    storage_options=None,
-    columns=None,
-    connect_args=None,
-    sql=None,
-    table_name=None,
-    limit=None,
-    **kwargs,
-):
+def load_data(data_spec, storage_options=None, **kwargs):
+    if data_spec is None:
+        raise InvalidParameterError(f"No details provided for this data source.")
+    filename = data_spec.url
+    format = data_spec.format
+    columns = data_spec.columns
+    connect_args = data_spec.connect_args
+    sql = data_spec.sql
+    table_name = data_spec.table_name
+    limit = data_spec.limit
+
+    storage_options = storage_options or (
+        default_signer() if ObjectStorageDetails.is_oci_path(filename) else {}
+    )
+
     if filename is not None:
         if not format:
             _, format = os.path.splitext(filename)
diff --git a/ads/opctl/operator/lowcode/forecast/model/arima.py b/ads/opctl/operator/lowcode/forecast/model/arima.py
@@ -171,6 +171,12 @@ def _generate_report(self):
                 self.formatted_global_explanation = (
                     global_explanation_df / global_explanation_df.sum(axis=0) * 100
                 )
+                self.formatted_global_explanation = (
+                    self.formatted_global_explanation.rename(
+                        {self.spec.datetime_column.name: ForecastOutputColumns.DATE},
+                        axis=1,
+                    )
+                )
 
                 # Create a markdown section for the global explainability
                 global_explanation_section = dp.Blocks(
diff --git a/ads/opctl/operator/lowcode/forecast/model/automlx.py b/ads/opctl/operator/lowcode/forecast/model/automlx.py
@@ -241,6 +241,11 @@ def _generate_report(self):
             self.formatted_global_explanation = (
                 global_explanation_df / global_explanation_df.sum(axis=0) * 100
             )
+            self.formatted_global_explanation = (
+                self.formatted_global_explanation.rename(
+                    {self.spec.datetime_column.name: ForecastOutputColumns.DATE}, axis=1
+                )
+            )
 
             # Create a markdown section for the global explainability
             global_explanation_section = dp.Blocks(
diff --git a/ads/opctl/operator/lowcode/forecast/model/forecast_datasets.py b/ads/opctl/operator/lowcode/forecast/model/forecast_datasets.py
@@ -13,7 +13,6 @@
 from ..const import ForecastOutputColumns, PROPHET_INTERNAL_DATE_COL
 from ads.common.object_storage_details import ObjectStorageDetails
 from ads.opctl.operator.lowcode.common.utils import (
-    load_data,
     get_frequency_in_seconds,
     get_frequency_of_datetime,
 )
diff --git a/ads/opctl/operator/lowcode/forecast/model/neuralprophet.py b/ads/opctl/operator/lowcode/forecast/model/neuralprophet.py
@@ -440,15 +440,17 @@ def explain_model(self):
         for s_id, expl_df in self.explanations_info.items():
             expl_df = expl_df.rename(rename_cols, axis=1)
             # Local Expl
-            self.local_explanation[s_id] = self.get_horizon(expl_df)
+            self.local_explanation[s_id] = self.get_horizon(expl_df).drop(
+                ["future_regressors_additive"], axis=1
+            )
             self.local_explanation[s_id]["Series"] = s_id
-
+            self.local_explanation[s_id].index.rename(self.dt_column_name, inplace=True)
             # Global Expl
             g_expl = self.drop_horizon(expl_df).mean()
             g_expl.name = s_id
             global_expl.append(g_expl)
         self.global_explanation = pd.concat(global_expl, axis=1)
-        self.formatted_global_explanation = self.global_explanation.drop(
+        self.global_explanation = self.global_explanation.drop(
             index=["future_regressors_additive"], axis=0
         )
         self.formatted_global_explanation = (
diff --git a/tests/operators/forecast/test_datasets.py b/tests/operators/forecast/test_datasets.py
@@ -89,6 +89,18 @@
         parameters_short.append((model, dataset_i))
 
 
+def verify_explanations(global_fn, local_fn, yaml_i, additional_cols):
+    glb_expl = pd.read_csv(global_fn, index_col=0)
+    loc_expl = pd.read_csv(local_fn)
+    assert loc_expl.shape[0] == PERIODS
+    for x in [yaml_i["spec"]["datetime_column"]["name"], "Series"]:
+        assert x in set(loc_expl.columns)
+    for x in additional_cols:
+        assert x in set(loc_expl.columns)
+        assert x in set(glb_expl.index)
+    assert "Series 1" in set(glb_expl.columns)
+
+
 @pytest.mark.parametrize("model, dataset_name", parameters_short)
 def test_load_datasets(model, dataset_name):
     if model == "automlx" and dataset_name == "WeatherDataset":
@@ -97,6 +109,7 @@ def test_load_datasets(model, dataset_name):
     datetime_col = dataset_i.time_index.name
 
     columns = dataset_i.components
+    additional_cols = []
     target = dataset_i[columns[0]][:-PERIODS]
     test = dataset_i[columns[0]][-PERIODS:]
 
@@ -145,7 +158,7 @@ def test_load_datasets(model, dataset_name):
         yaml_i["spec"]["target_column"] = columns[0]
         yaml_i["spec"]["datetime_column"]["name"] = datetime_col
         yaml_i["spec"]["horizon"] = PERIODS
-        if yaml_i["spec"].get("additional_data") is not None and model != "automlx":
+        if yaml_i["spec"].get("additional_data") is not None and model != "autots":
             yaml_i["spec"]["generate_explanations"] = True
         if generate_train_metrics:
             yaml_i["spec"]["generate_metrics"] = generate_train_metrics
@@ -164,11 +177,13 @@ def test_load_datasets(model, dataset_name):
         # sleep(0.1)
         run(yaml_i, backend="operator.local", debug=False)
         subprocess.run(f"ls -a {output_data_path}", shell=True)
-        if yaml_i["spec"]["generate_explanations"] and model != "autots":
-            glb_expl = pd.read_csv(f"{tmpdirname}/results/global_explanation.csv")
-            print(glb_expl)
-            loc_expl = pd.read_csv(f"{tmpdirname}/results/local_explanation.csv")
-            print(loc_expl)
+        if yaml_i["spec"]["generate_explanations"]:
+            verify_explanations(
+                global_fn=f"{tmpdirname}/results/global_explanation.csv",
+                local_fn=f"{tmpdirname}/results/local_explanation.csv",
+                yaml_i=yaml_i,
+                additional_cols=additional_cols,
+            )
 
         test_metrics = pd.read_csv(f"{tmpdirname}/results/test_metrics.csv")
         print(test_metrics)
diff --git a/tests/operators/forecast/test_errors.py b/tests/operators/forecast/test_errors.py
@@ -289,12 +289,6 @@ def test_historical_data(operator_setup, model):
             tmpdirname=tmpdirname, yaml_i=yaml_i, output_data_path=output_data_path
         )
 
-    yaml_i["spec"]["historical_data"] = None
-    with pytest.raises(InvalidParameterError):
-        run_yaml(
-            tmpdirname=tmpdirname, yaml_i=yaml_i, output_data_path=output_data_path
-        )
-
     yaml_i["spec"].pop("historical_data")
     yaml_i["spec"]["TEST"] = historical_data
     with pytest.raises(InvalidParameterError):

Original file line number	Diff line number	Diff line change
`@@ -7,7 +7,6 @@`
`7`	`7`	`from ..operator_config import AnomalyOperatorSpec`
`8`	`8`	`from ads.opctl.operator.lowcode.common.utils import (`
`9`	`9`	`default_signer,`
`10`		`- load_data,`
`11`	`10`	`merge_category_columns,`
`12`	`11`	`)`
`13`	`12`	`from ads.opctl.operator.lowcode.common.data import AbstractData`
Original file line number	Diff line number	Diff line change
`@@ -13,7 +13,6 @@`
`13`	`13`	`from ..const import ForecastOutputColumns, PROPHET_INTERNAL_DATE_COL`
`14`	`14`	`from ads.common.object_storage_details import ObjectStorageDetails`
`15`	`15`	`from ads.opctl.operator.lowcode.common.utils import (`
`16`		`- load_data,`
`17`	`16`	`get_frequency_in_seconds,`
`18`	`17`	`get_frequency_of_datetime,`
`19`	`18`	`)`