Forecasting: target_col removal from outputs, fixed prophet and autots bugs (#537)

ahosler · web-flow · commit 7265aacaa3fa · 2024-01-25T12:21:37.000Z
diff --git a/ads/opctl/operator/lowcode/forecast/model/arima.py b/ads/opctl/operator/lowcode/forecast/model/arima.py
@@ -128,7 +128,7 @@ def _train_model(self, i, target, df):
             for param in ['arima_res_', 'endog_index_']:
                 if param in params:
                     params.pop(param)
-            self.model_parameters[target] = {
+            self.model_parameters[utils.convert_target(target, self.original_target_column)] = {
                 "framework": SupportedModels.Arima,
                 **params,
             }
@@ -197,7 +197,7 @@ def _generate_report(self):
 
         sec5_text = dp.Text(f"## ARIMA Model Parameters")
         blocks = [
-            dp.HTML(m.summary().as_html(), label=target)
+            dp.HTML(m.summary().as_html(), label=utils.convert_target(target, self.original_target_column))
             for i, (target, m) in enumerate(self.models.items())
         ]
         sec5 = dp.Select(blocks=blocks) if len(blocks) > 1 else blocks[0]
@@ -242,7 +242,7 @@ def _generate_report(self):
                 blocks = [
                     dp.DataTable(
                         local_ex_df.div(local_ex_df.abs().sum(axis=1), axis=0) * 100,
-                        label=s_id,
+                        label=utils.convert_target(s_id, self.original_target_column),
                     )
                     for s_id, local_ex_df in self.local_explanation.items()
                 ]
diff --git a/ads/opctl/operator/lowcode/forecast/model/automlx.py b/ads/opctl/operator/lowcode/forecast/model/automlx.py
@@ -164,7 +164,7 @@ def _build_model(self) -> pd.DataFrame:
                 outputs[target] = summary_frame
                 # outputs_legacy[target] = summary_frame
 
-                self.model_parameters[target] = {
+                self.model_parameters[utils.convert_target(target, self.original_target_column)] = {
                     "framework": SupportedModels.AutoMLX,
                     "score_metric": model.score_metric,
                     "random_state": model.random_state,
@@ -250,7 +250,7 @@ def _generate_report(self):
         models = self.models
         for i, (target, df) in enumerate(self.full_data_dict.items()):
             selected_models[target] = {
-                "series_id": target,
+                "series_id": utils.convert_target(target, self.original_target_column),
                 "selected_model": models[target].selected_model_,
                 "model_params": models[target].selected_model_params_,
             }
@@ -304,7 +304,7 @@ def _generate_report(self):
                 blocks = [
                     dp.DataTable(
                         local_ex_df.div(local_ex_df.abs().sum(axis=1), axis=0) * 100,
-                        label=s_id,
+                        label=utils.convert_target(s_id, self.original_target_column),
                         )
                     for s_id, local_ex_df in self.local_explanation.items()
                 ]
diff --git a/ads/opctl/operator/lowcode/forecast/model/autots.py b/ads/opctl/operator/lowcode/forecast/model/autots.py
@@ -78,7 +78,7 @@ def _build_model(self) -> pd.DataFrame:
                 drop_data_older_than_periods=self.spec.model_kwargs.get(
                     "drop_data_older_than_periods", None
                 ),
-            model_list=self.spec.model_kwargs.get("model_list", "fast_parallel"),
+                model_list=self.spec.model_kwargs.get("model_list", "fast_parallel"),
                 transformer_list=self.spec.model_kwargs.get("transformer_list", "auto"),
                 transformer_max_depth=self.spec.model_kwargs.get(
                     "transformer_max_depth", 6
@@ -137,10 +137,7 @@ def _build_model(self) -> pd.DataFrame:
                     columns="series_id",
                     values=list(
                         self.original_additional_data.set_index(
-                            [
-                                self.spec.target_category_columns[0],
-                                self.spec.datetime_column.name,
-                            ]
+                            self.spec.target_category_columns + [self.spec.datetime_column.name]
                         ).columns
                     ),
                 ),
@@ -225,7 +222,7 @@ def _build_model(self) -> pd.DataFrame:
                 category=cat, target_category_column=cat_target, forecast=output_i
             )
 
-            self.model_parameters[cat_target] = {
+            self.model_parameters[utils.convert_target(cat_target, self.original_target_column)] = {
                 "framework": SupportedModels.AutoTS,
                 **params,
             }
@@ -257,15 +254,28 @@ def _generate_report(self) -> tuple:
             "## Forecast Overview \n"
             "These plots show your forecast in the context of historical data."
         )
+
+        # Default title generated by autots has target_col in it. Modified function to get rid of it.
+        def get_title(idx, target):
+            from autots.models.base import extract_single_series_from_horz
+            title_prelim = extract_single_series_from_horz(
+                self.models.df_wide_numeric.columns[idx],
+                model_name=self.prediction.model_name,
+                model_parameters=self.prediction.model_parameters,
+            )[0:80]
+            return f"{utils.convert_target(target, self.original_target_column)} with model {title_prelim}"
+
         sec_1 = utils._select_plot_list(
-            lambda idx, *args: self.prediction.plot(
+            lambda idx, target, *args: self.prediction.plot(
                 self.models.df_wide_numeric,
                 series=self.models.df_wide_numeric.columns[idx],
                 start_date=self.models.df_wide_numeric.reset_index()[
                     self.spec.datetime_column.name
                 ].min(),
+                title=get_title(idx, target)
             ),
             target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         # Section 2: AutoTS Model Parameters
@@ -323,8 +333,8 @@ def _generate_report(self) -> tuple:
                 blocks = [
                     dp.DataTable(
                         local_ex_df.div(local_ex_df.abs().sum(axis=1), axis=0) * 100,
-                        label=s_id,
-                        )
+                        label=utils.convert_target(s_id, self.original_target_column),
+                    )
                     for s_id, local_ex_df in self.local_explanation.items()
                 ]
                 local_explanation_section = (
@@ -364,7 +374,7 @@ def _generate_train_metrics(self) -> pd.DataFrame:
         Generate Training Metrics when fitted data is not available.
         The method that needs to be implemented on the particular model level.
 
-        metrics	Sales_Store 1
+        metrics	Store 1
         sMAPE	26.19
         MAPE	2.96E+18
         RMSE	2014.192531
@@ -375,4 +385,7 @@ def _generate_train_metrics(self) -> pd.DataFrame:
         scores = pd.DataFrame(
             self.models.best_model_per_series_score(), columns=["AutoTS Score"]
         ).T
-        return pd.concat([mapes, scores])
+        df = pd.concat([mapes, scores])
+        new_column_names = {old_name: utils.convert_target(old_name, self.original_target_column)
+                            for old_name in df.columns}
+        return df.rename(columns=new_column_names)
diff --git a/ads/opctl/operator/lowcode/forecast/model/base_model.py b/ads/opctl/operator/lowcode/forecast/model/base_model.py
@@ -106,6 +106,7 @@ def generate_report(self):
                         self.datasets,
                         self.forecast_output,
                         self.spec.datetime_column.name,
+                        self.original_target_column,
                         target_col=self.forecast_col_name,
                     )
                 else:
@@ -126,6 +127,7 @@ def generate_report(self):
                             target_columns=self.target_columns,
                             test_filename=self.spec.test_data.url,
                             output=self.forecast_output,
+                            original_target_column=self.original_target_column,
                             target_col=self.forecast_col_name,
                             elapsed_time=elapsed_time,
                         )
@@ -145,12 +147,13 @@ def generate_report(self):
 
                 title_text = dp.Text("# Forecast Report")
 
-                md_columns = " * ".join([f"{x} \n" for x in self.target_columns])
+                md_columns = " * ".join([f"{utils.convert_target(x,self.original_target_column)} \n"
+                                         for x in self.target_columns])
                 first_10_rows_blocks = [
                     dp.DataTable(
                         df.head(10).rename({col: self.spec.target_column}, axis=1),
                         caption="Start",
-                        label=col,
+                        label=utils.convert_target(col, self.original_target_column),
                     )
                     for col, df in self.full_data_dict.items()
                 ]
@@ -159,7 +162,7 @@ def generate_report(self):
                     dp.DataTable(
                         df.tail(10).rename({col: self.spec.target_column}, axis=1),
                         caption="End",
-                        label=col,
+                        label=utils.convert_target(col, self.original_target_column),
                     )
                     for col, df in self.full_data_dict.items()
                 ]
@@ -168,7 +171,7 @@ def generate_report(self):
                     dp.DataTable(
                         df.rename({col: self.spec.target_column}, axis=1).describe(),
                         caption="Summary Statistics",
-                        label=col,
+                        label=utils.convert_target(col, self.original_target_column),
                     )
                     for col, df in self.full_data_dict.items()
                 ]
@@ -224,7 +227,7 @@ def generate_report(self):
                             ),
                             dp.Text(
                                 "The following report compares a variety of metrics and plots "
-                                f"for your target columns: \n {md_columns}.\n",
+                                f"for your target columns: \n * {md_columns}.\n",
                                 label="Target Columns",
                             ),
                         ]
@@ -255,6 +258,7 @@ def generate_report(self):
                 forecast_sec = utils.get_forecast_plots(
                     self.forecast_output,
                     self.target_columns,
+                    self.original_target_column,
                     horizon=self.spec.horizon,
                     test_data=test_data,
                     ci_interval_width=self.spec.confidence_interval_width,
@@ -281,7 +285,7 @@ def generate_report(self):
             )
 
     def _test_evaluate_metrics(
-            self, target_columns, test_filename, output, target_col="yhat", elapsed_time=0
+            self, target_columns, test_filename, output, original_target_column, target_col="yhat", elapsed_time=0
     ):
         total_metrics = pd.DataFrame()
         summary_metrics = pd.DataFrame()
@@ -336,7 +340,7 @@ def _test_evaluate_metrics(
                 metrics_df = utils._build_metrics_df(
                     y_true=y_true[-self.spec.horizon:],
                     y_pred=y_pred[-self.spec.horizon:],
-                    column_name=target_column_i,
+                    column_name=utils.convert_target(target_column_i, original_target_column),
                 )
                 total_metrics = pd.concat([total_metrics, metrics_df], axis=1)
             else:
@@ -685,7 +689,7 @@ def explain_model(self, datetime_col_name, explain_predict_fn) -> dict:
                     f"No explanations generated. Ensure that additional data has been provided."
                 )
             else:
-                self.global_explanation[series_id] = dict(
+                self.global_explanation[utils.convert_target(series_id, self.original_target_column)] = dict(
                     zip(
                         data_trimmed.columns[1:],
                         np.average(np.absolute(kernel_explnr_vals[:, 1:]), axis=0),
@@ -734,4 +738,4 @@ def local_explainer(self, kernel_explainer, series_id, datetime_col_name) -> Non
                 ["series_id", self.spec.target_column], axis=1, inplace=True
             )
 
-        self.local_explanation[series_id] = local_kernel_explnr_df
+        self.local_explanation[utils.convert_target(series_id, self.original_target_column)] = local_kernel_explnr_df
diff --git a/ads/opctl/operator/lowcode/forecast/model/neuralprophet.py b/ads/opctl/operator/lowcode/forecast/model/neuralprophet.py
@@ -81,7 +81,6 @@ def _load_model(self):
         except:
             logger.info("model.pkl/trainer.pkl is not present")
 
-
     def _train_model(self, i, target, df):
 
         try:
@@ -236,7 +235,7 @@ def objective(trial):
                 self.models[target] = model
                 self.trainers[target] = model.trainer
 
-            self.model_parameters[target] = {
+            self.model_parameters[utils.convert_target(target, self.original_target_column)] = {
                 "framework": SupportedModels.NeuralProphet,
                 "config": model.config,
                 "config_trend": model.config_trend,
@@ -259,7 +258,7 @@ def objective(trial):
                 "highlight_forecast_step_n": model.highlight_forecast_step_n,
                 "true_ar_weights": model.true_ar_weights,
             }
-            
+
             logger.debug("===========Done===========")
         except Exception as e:
             self.errors_dict[target] = {"model_name": self.spec.model, "error": str(e)}
@@ -286,7 +285,6 @@ def _build_model(self) -> pd.DataFrame:
         if self.loaded_trainers is not None:
             self.trainers = self.loaded_trainers
 
-
         # Merge the outputs from each model into 1 df with all outputs by target and category
         col = self.original_target_column
         output_col = pd.DataFrame()
@@ -349,18 +347,21 @@ def _generate_report(self):
         sec1 = utils._select_plot_list(
             lambda idx, target, *args: self.models[target].plot(self.outputs[target]),
             target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         sec2_text = dp.Text(f"## Forecast Broken Down by Trend Component")
         sec2 = utils._select_plot_list(
             lambda idx, target, *args: self.models[target].plot_components(self.outputs[target]),
             target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         sec3_text = dp.Text(f"## Forecast Parameter Plots")
         sec3 = utils._select_plot_list(
             lambda idx, target, *args: self.models[target].plot_parameters(),
             target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         sec5_text = dp.Text(f"## Neural Prophet Model Parameters")
@@ -370,7 +371,7 @@ def _generate_report(self):
                 pd.Series(
                     m.state_dict(),
                     index=m.state_dict().keys(),
-                    name=target,
+                    name=utils.convert_target(target, self.original_target_column),
                 )
             )
         all_model_states = pd.concat(model_states, axis=1)
@@ -406,7 +407,7 @@ def _generate_report(self):
                 global_explanation_df = pd.DataFrame(self.global_explanation)
 
                 self.formatted_global_explanation = (
-                    global_explanation_df / global_explanation_df.sum(axis=0) * 100
+                        global_explanation_df / global_explanation_df.sum(axis=0) * 100
                 )
 
                 # Create a markdown section for the global explainability
@@ -428,7 +429,7 @@ def _generate_report(self):
                 blocks = [
                     dp.DataTable(
                         local_ex_df.div(local_ex_df.abs().sum(axis=1), axis=0) * 100,
-                        label=s_id,
+                        label=utils.convert_target(s_id, self.original_target_column),
                     )
                     for s_id, local_ex_df in self.local_explanation.items()
                 ]
diff --git a/ads/opctl/operator/lowcode/forecast/model/prophet.py b/ads/opctl/operator/lowcode/forecast/model/prophet.py
@@ -118,8 +118,8 @@ def objective(trial):
                         )
 
                         # Manual workaround because pandas 1.x dropped support for M and Y
-                        interval = self.spec.horizon.interval
-                        unit = self.spec.horizon.interval_unit
+                        interval = self.spec.horizon
+                        unit = self.spec.freq.split('-')[0] if self.spec.freq else None
                         if unit == "M":
                             unit = "D"
                             interval = interval * 30.5
@@ -207,7 +207,7 @@ def objective(trial):
             for param in ["history", "history_dates", "stan_fit"]:
                 if param in params:
                     params.pop(param)
-            self.model_parameters[target] = {
+            self.model_parameters[utils.convert_target(target, self.original_target_column)] = {
                 "framework": SupportedModels.Prophet,
                 **params,
             }
@@ -293,12 +293,14 @@ def _generate_report(self):
                 self.outputs[target], include_legend=True
             ),
             target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         sec2_text = dp.Text(f"## Forecast Broken Down by Trend Component")
         sec2 = utils._select_plot_list(
             lambda idx, target, *args: self.models[target].plot_components(self.outputs[target]),
             target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         sec3_text = dp.Text(f"## Forecast Changepoints")
@@ -313,7 +315,9 @@ def _generate_report(self):
             for idx in range(len(self.target_columns))
         ]
         sec3 = utils._select_plot_list(
-            lambda idx, *args: sec3_figs[idx], target_columns=self.target_columns
+            lambda idx, *args: sec3_figs[idx],
+            target_columns=self.target_columns,
+            original_target_column=self.original_target_column
         )
 
         all_sections = [sec1_text, sec1, sec2_text, sec2, sec3_text, sec3]
@@ -374,7 +378,7 @@ def _generate_report(self):
                 blocks = [
                     dp.DataTable(
                         local_ex_df.div(local_ex_df.abs().sum(axis=1), axis=0) * 100,
-                        label=s_id,
+                        label=utils.convert_target(s_id,self.original_target_column),
                     )
                     for s_id, local_ex_df in self.local_explanation.items()
                 ]
diff --git a/ads/opctl/operator/lowcode/forecast/utils.py b/ads/opctl/operator/lowcode/forecast/utils.py

Original file line number	Diff line number	Diff line change
`@@ -128,7 +128,7 @@ def _train_model(self, i, target, df):`
`128`	`128`	`for param in ['arima_res_', 'endog_index_']:`
`129`	`129`	`if param in params:`
`130`	`130`	`params.pop(param)`
`131`		`- self.model_parameters[target] = {`
	`131`	`+ self.model_parameters[utils.convert_target(target, self.original_target_column)] = {`
`132`	`132`	`"framework": SupportedModels.Arima,`
`133`	`133`	`**params,`
`134`	`134`	`}`
`@@ -197,7 +197,7 @@ def _generate_report(self):`
`197`	`197`
`198`	`198`	`sec5_text = dp.Text(f"## ARIMA Model Parameters")`
`199`	`199`	`blocks = [`
`200`		`- dp.HTML(m.summary().as_html(), label=target)`
	`200`	`+ dp.HTML(m.summary().as_html(), label=utils.convert_target(target, self.original_target_column))`
`201`	`201`	`for i, (target, m) in enumerate(self.models.items())`
`202`	`202`	`]`
`203`	`203`	`sec5 = dp.Select(blocks=blocks) if len(blocks) > 1 else blocks[0]`
`@@ -242,7 +242,7 @@ def _generate_report(self):`
`242`	`242`	`blocks = [`
`243`	`243`	`dp.DataTable(`
`244`	`244`	`local_ex_df.div(local_ex_df.abs().sum(axis=1), axis=0) * 100,`
`245`		`- label=s_id,`
	`245`	`+ label=utils.convert_target(s_id, self.original_target_column),`
`246`	`246`	`)`
`247`	`247`	`for s_id, local_ex_df in self.local_explanation.items()`
`248`	`248`	`]`