dzaridis
diff --git a/‎.github/workflows/ci.yml
Lines changed: 0 additions & 29 deletions b/‎.github/workflows/ci.yml
Lines changed: 0 additions & 29 deletions
diff --git a/‎.github/workflows/docker-publish.yml renamed to ‎.github/workflows/cicd.yaml
Lines changed: 25 additions & 3 deletions b/‎.github/workflows/docker-publish.yml renamed to ‎.github/workflows/cicd.yaml
Lines changed: 25 additions & 3 deletions
diff --git a/‎.gitignore
Lines changed: 1 addition & 0 deletions b/‎.gitignore
Lines changed: 1 addition & 0 deletions
diff --git a/‎Helpers/data_checks.py
Lines changed: 42 additions & 12 deletions b/‎Helpers/data_checks.py
Lines changed: 42 additions & 12 deletions
diff --git a/‎__main__.py
Lines changed: 36 additions & 3 deletions b/‎__main__.py
Lines changed: 36 additions & 3 deletions
diff --git a/‎app.py
Lines changed: 54 additions & 35 deletions b/‎app.py
Lines changed: 54 additions & 35 deletions
@@ -1,13 +1,36 @@
-name: Build and Push Docker Image
+name: CI and Docker Build
 
 on:
   push:
     branches:
       - main
+  pull_request:
 
 jobs:
+  test:
+    runs-on: ubuntu-latest
+
+    steps:
+      - name: Checkout repository
+        uses: actions/checkout@v2
+
+      - name: Set up Python
+        uses: actions/setup-python@v2
+        with:
+          python-version: '3.8'
+
+      - name: Install dependencies
+        run: |
+          python -m pip install --upgrade pip
+          pip install -r requirements.txt
+
+      - name: Run tests
+        run: |
+          python -m unittest discover tests
+
   build:
     runs-on: ubuntu-latest
+    needs: test  # This ensures the build job only runs if the test job succeeds
 
     steps:
       - name: Checkout repository
@@ -27,5 +50,4 @@ jobs:
         with:
           context: .
           push: true
-          tags: ${{ secrets.DOCKER_USERNAME }}/simplatab-machine-learning-automator:0.7.2-TestVersion
-
+          tags: ${{ secrets.DOCKER_USERNAME }}/simplatab-machine-learning-automator:0.7.3-TestVersion
@@ -8,6 +8,7 @@ radiomics_setup.py
 *.so
 .vscode
 
+
 # Folders
 Feature Selection.txt
 Data
 
@@ -18,23 +18,52 @@ def load_data(self):
 
         return train, test
 
-    def check_target_column(self, df, target_col="Target"):
+    @staticmethod
+    def check_target_column(df, target_col="Target"):
         if target_col not in df.columns:
             raise ValueError(f"The target column '{target_col}' is not present in the dataframe.")
 
         if not df[target_col].isin([0, 1]).all():
             raise ValueError(f"The target column '{target_col}' does not contain binary values 0 and 1.")
 
-    def set_index_column(self, df, index_col="ID"):
-        if index_col not in df.columns and "patient_id" not in df.columns:
-            raise ValueError(f"The index column '{index_col}' is not present in the dataframe.")
-        try:
+    @staticmethod
+    def set_index_column(df, index_col="ID"):
+        
+        if index_col in df.columns.to_list():
             df.set_index(index_col, inplace=True)
-        except KeyError:
+            return df
+        elif "patient_id" in df.columns.to_list():
             df.set_index("patient_id", inplace=True)
-
-    def remove_nan_rows(self, df):
+            return df
+        else:
+            raise ValueError(f"Neither '{index_col}' nor 'patient_id' is present in the dataframe.")
+        
+        
+    @staticmethod
+    def remove_nan_rows(df):
         df.dropna(inplace=True)
+        return df
+    
+    @staticmethod
+    def check_categorical_features(train, test):
+        categorical_cols = train.select_dtypes(include=['object', 'category']).columns
+        if categorical_cols.empty:
+            # No categorical columns to process
+            return train, test, []
+
+        cols_to_drop = []
+
+        for col in categorical_cols:
+            if col in test.columns:
+                train_unique_values = set(train[col].dropna().unique())
+                test_unique_values = set(test[col].dropna().unique())
+                if train_unique_values != test_unique_values:
+                    cols_to_drop.append(col)
+
+        train.drop(columns=cols_to_drop, inplace=True)
+        test.drop(columns=cols_to_drop, inplace=True)
+
+        return train, test, cols_to_drop
 
     def process_data(self):
         train, test = self.load_data()
@@ -43,11 +72,12 @@ def process_data(self):
         self.check_target_column(train)
 
         # Set index column
-        self.set_index_column(train)
-        self.set_index_column(test)
+        train = self.set_index_column(train)
+        test= self.set_index_column(test)
 
         # Remove rows with NaN values
-        self.remove_nan_rows(train)
-        self.remove_nan_rows(test)
+        train = self.remove_nan_rows(train)
+        test = self.remove_nan_rows(test)
+        train, test, cols_to_drop = self.check_categorical_features(train, test)
 
         return train, test
@@ -4,10 +4,12 @@
 from Helpers.pipelines_main import train_k_fold, external_test, read_yaml
 from Helpers.data_checks import DataChecker
 from tkinter import Tk, filedialog
+from Helpers import DBDM
 
 def get_user_input():
     params = {}
-
+    params["BiasAssessment"] = input("Enable bias assessment (true/false): ").lower() == 'true'
+    params["Feature"] = str(input("Enter feature from your train and test sets columns for bias assessment: "))
     params["number_of_k_folds"] = int(input("Enter number of k-folds: "))
 
     params["apply_grid_search"] = {}
@@ -50,9 +52,40 @@ def select_folder(prompt):
     root.destroy()
     return folder_selected
 
-def main(input_folder, output_folder):
+
+def main(input_folder, output_folder, params):
     read_yaml(input_folder)
 
+    # Perform Bias Assessment
+    if params["BiasAssessment"]:
+        print("------------- \n", " Bias Detection Started \n", "-------------")
+        try:
+            print("------------- \n", " Bias Detection Started for Train.csv \n", "-------------")
+            DBDM.bias_config(
+                file_path=os.path.join(input_folder, "Train.csv"),
+                subgroup_analysis=0,  # default is 0
+                facet=params["Feature"],
+                outcome='Target',
+                subgroup_col='',  # default is ''
+                label_value=1,  # default is 1
+            )
+            print("------------- \n", " Bias Detection Finished for Train.csv \n", "-------------")
+        except:
+            pass
+        try:
+            print("------------- \n", " Bias Detection Started for Test.csv \n", "-------------")
+            DBDM.bias_config(
+                file_path=os.path.join(input_folder, "Test.csv"), 
+                subgroup_analysis=0, # default is 0
+                facet=params["Feature"],
+                outcome='Target',
+                subgroup_col='',  # default is ''
+                label_value=1,  # default is 1
+            )
+            print("------------- \n", " Bias Detection Finished for Test.csv \n", "-------------")
+        except:
+            pass
+
     # Load data
     print("------------- \n", "Loading Data \n", "-------------")
     data_checker = DataChecker(input_folder)
@@ -92,4 +125,4 @@ def main(input_folder, output_folder):
     yaml_path = os.path.join(input_folder, "machine_learning_parameters.yaml")
     save_yaml(params, yaml_path)
 
-    main(input_folder, output_folder)
+    main(input_folder, output_folder, params)
@@ -14,14 +14,14 @@
 
 
 def get_train_columns(input_folder):
-    train_file_path = os.path.join(input_folder, "Train.csv")
+    train_file_path = os.path.join(input_folder, "Test.csv")
     df = pd.read_csv(train_file_path)
     return df.columns.tolist()
 
 
 @app.route('/')
 def index():
-    input_folder = './input_data'  # specify the input folder path
+    input_folder = './input_data' 
     columns = get_train_columns(input_folder)
     return render_template('index.html', columns=columns)
 
@@ -36,6 +36,7 @@ def pipeline_status_route():
 def submit():
     # Retrieve the selected facet from the form
     selected_facet = request.form.get('facet')
+    bias_assess = request.form["bias_assess"].lower() == 'true'
 
     input_folder = './input_data'
     output_folder = './Materials'
@@ -69,50 +70,64 @@ def submit():
         yaml.dump(params, file)
 
     # Redirect to run pipeline
-    return redirect(url_for('run_pipeline', selected_facet=selected_facet))
+    return redirect(url_for('run_pipeline', selected_facet=selected_facet, bias_assess=bias_assess))
 
 @app.route('/run_pipeline')
 def run_pipeline():
     global pipeline_status_message
     input_folder = "./input_data"
     output_folder = "./Materials"
     selected_facet = request.args.get('selected_facet')
+    bias_assess = request.args.get('bias_assess').lower() == 'true'
     try:
         import threading
         pipeline_status_message = "Running"
         # Run the main function asynchronously
-        threading.Thread(target=main, args=(input_folder, output_folder, selected_facet)).start()
+        threading.Thread(target=main, args=(input_folder, output_folder, selected_facet, bias_assess)).start()
         return redirect(url_for('pipeline_status'))
     except Exception as e:
         pipeline_status_message = f"Error: {e}"
         return f"An error occurred: {e}"
 
+
 @app.route('/pipeline_status')
 def pipeline_status():
     return render_template('status.html', status=pipeline_status_message)
 
-def main(input_folder, output_folder, selected_facet):
+
+def main(input_folder, output_folder, selected_facet,  bias_assess=False):
     global pipeline_status_message
     # Load parameters from YAML file
     read_yaml(input_folder)
-
-    DBDM.bias_config(
-        file_path=os.path.join(input_folder, "Train.csv"),
-        subgroup_analysis=0,  # default is 0
-        facet=selected_facet,
-        outcome='Target',
-        subgroup_col='',  # default is ''
-        label_value=1,  # default is 1
-    )
-
-    DBDM.bias_config(
-        file_path=os.path.join(input_folder, "Test.csv"), 
-        subgroup_analysis=0, # default is 0
-        facet=selected_facet,
-        outcome='Target',
-        subgroup_col='',  # default is ''
-        label_value=1,  # default is 1
-    )
+    if bias_assess:
+        print("------------- \n", " Bias Detection Started \n", "-------------")
+        try:
+            print("------------- \n", " Bias Detection Started for Train.csv \n", "-------------")
+            DBDM.bias_config(
+                file_path=os.path.join(input_folder, "Train.csv"),
+                subgroup_analysis=0,  # default is 0
+                facet=selected_facet,
+                outcome='Target',
+                subgroup_col='',  # default is ''
+                label_value=1,  # default is 1
+            )
+            print("------------- \n", " Bias Detection Finished for Train.csv \n", "-------------")
+        except:
+            pass
+        try:
+            print("------------- \n", " Bias Detection Started for Test.csv \n", "-------------")
+            DBDM.bias_config(
+                file_path=os.path.join(input_folder, "Test.csv"), 
+                subgroup_analysis=0, # default is 0
+                facet=selected_facet,
+                outcome='Target',
+                subgroup_col='',  # default is ''
+                label_value=1,  # default is 1
+            )
+            print("------------- \n", " Bias Detection Finished for Test.csv \n", "-------------")
+        except:
+            pass
+        print("------------- \n", " Bias Detection Finished \n", "-------------")
     # Load data
     print("------------- \n", " Loading Data \n", "-------------")
     data_checker = DataChecker(input_folder)
@@ -125,22 +140,26 @@ def main(input_folder, output_folder, selected_facet):
         print(e)
     except ValueError as e:
         print(e)
-    X_train = train.drop('Target', axis=1)  # Drop the 'Target' column for X_train
-    y_train = train['Target']
-    X_test = test.drop('Target', axis=1)  # Drop the 'Target' column for X_test
-    y_test = test['Target']
-    print("------------- \n", " Data Loaded successfully \n", "-------------")
+    try:
+        X_train = train.drop('Target', axis=1)  # Drop the 'Target' column for X_train
+        y_train = train['Target']
+        X_test = test.drop('Target', axis=1)  # Drop the 'Target' column for X_test
+        y_test = test['Target']
+        print("------------- \n", " Data Loaded successfully \n", "-------------")
 
-    # Run the pipeline
-    print("------------- \n", " Training on K-Fold cross validation with Train.csv file and parameters set on machine_learning_parameters.yaml file  \n", "-------------")
+        # Run the pipeline
+        print("------------- \n", " Training on K-Fold cross validation with Train.csv file and parameters set on machine_learning_parameters.yaml file  \n", "-------------")
 
-    params_dict, scores_storage, thresholds, _ = train_k_fold(X_train, y_train)
-    print("------------- \n", " Training on K-Fold cross validation with Train.csv file and parameters set on machine_learning_parameters.yaml file completed successfully \n", "-------------")
+        params_dict, scores_storage, thresholds, _ = train_k_fold(X_train, y_train)
+        print("------------- \n", " Training on K-Fold cross validation with Train.csv file and parameters set on machine_learning_parameters.yaml file completed successfully \n", "-------------")
 
-    print("------------- \n", " Evaluating algorithms on Test.csv \n", "-------------")
-    external_test(X_train, y_train, X_test, y_test, params_dict, thresholds)
+        print("------------- \n", " Evaluating algorithms on Test.csv \n", "-------------")
+        external_test(X_train, y_train, X_test, y_test, params_dict, thresholds)
 
-    pipeline_status_message = "Completed"
+        pipeline_status_message = "Completed"
+    except UnboundLocalError as e:
+        print(e)
+        pipeline_status_message = f"Error: {e}"
 
 
 if __name__ == "__main__":