add shap.DeepExplainer

anjanaw · anjanaw · commit 110a22f35208 · 2023-02-25T17:40:47.000Z
diff --git a/README.md b/README.md
@@ -22,15 +22,14 @@ DisCERN requires the following packages:<br>
 | Attribution Explainer | scikit-learn | TensorFlow/Keras | PyTorch |
 |-----------------------|--------------|------------------|---------|
 | LIME                  | &check;      | &check;          | N/A     | 
-| SHAP                  | &check;      | &check;          | N/A     | 
+| SHAP                  | &check; shap.TreeExplainer     | &check;  shap.DeepExplainer       | N/A     | 
 | Integrated Gradients  | &cross;      | &check;          | N/A     | 
 
-
 ## Getting Started with DisCERN
 
-An example of the Adult Income dataset using RandomForest and Keras Deep Neural Net classifiers are <a href="/tests/adult_income.py">here</a>
+Binary Classification example on the Adult Income dataset using RandomForest and Keras Deep Neural Net classifiers are <a href="/tests/adult_income.py">here</a>
 
-<!--Multi-class Classification example using the Cancer risk dataset and RandomForest classifier <a href="/tests/cancer.py">here</a>-->
+Multi-class Classification example on the Cancer risk dataset using RandomForest and Keras Deep Neural Net classifiers are <a href="/tests/cancer.py">here</a>
 
 ## Citing
 
diff --git a/discern/discern_base.py b/discern/discern_base.py
@@ -39,8 +39,8 @@ def init_data(self, train_data, train_labels, feature_names, labels, **kwargs):
             raise ValueError("DisCERN requires feature names.")
         if len(self.labels) == 0:
             raise ValueError("DisCERN requires class names.")
-        if len(self.labels) != len(set(self.train_labels)):
-            raise ValueError("Mismatch between class names and number of classes.")
+        # if len(self.labels) != len(set(self.train_labels)):
+        #     raise ValueError("Mismatch between class names and number of classes.")
         if len(self.feature_names) != self.train_data.shape[1]:
             raise ValueError("Mismatch between number of features and training data.")
 
diff --git a/discern/discern_tabular.py b/discern/discern_tabular.py
@@ -44,7 +44,7 @@ def init_rel(self):
         if self.attrib == 'LIME':
            self.feature_attrib = FeatureAttributionLIME(self.model, self.feature_names, train_data=self.train_data, labels=self.labels)
         elif self.attrib == 'SHAP':
-            self.feature_attrib = FeatureAttributionSHAP(self.model, self.feature_names)
+            self.feature_attrib = FeatureAttributionSHAP(self.model, self.feature_names, train_data=self.train_data)
         elif self.attrib == 'IntG':
             self.feature_attrib = FeatureAttributionIntG(self.model)
         else:
diff --git a/discern/fa_shap.py b/discern/fa_shap.py
@@ -1,15 +1,30 @@
 from discern.fa_base import FeatureAttribution
 import shap
 import pandas as pd
+from sklearn.base import ClassifierMixin
+import tensorflow as tf
+import numpy as np
 
 class FeatureAttributionSHAP(FeatureAttribution):
 
-    def __init__(self, model, feature_names):
+    def __init__(self, model, feature_names, train_data):
         super().__init__(model)
         self.feature_names = feature_names
-        self.shap_explainer = shap.TreeExplainer(self.model)
+        self.train_data = train_data
+        if isinstance(self.model, ClassifierMixin):
+            self.shap_explainer = shap.TreeExplainer(self.model)
+        elif isinstance(self.model, tf.keras.Model):
+            self.shap_explainer = shap.DeepExplainer(self.model, self.train_data)
+            
 
     def explain_instance(self, query, query_label=None, nun=None):
-        i_exp = pd.DataFrame([query], columns=self.feature_names)
-        shap_values = self.shap_explainer.shap_values(i_exp)
-        return [(i,w) for i,w in enumerate(shap_values[int(query_label)][0])]
+        if isinstance(self.model, ClassifierMixin):
+            i_exp = pd.DataFrame([query], columns=self.feature_names)
+            shap_values = self.shap_explainer.shap_values(i_exp)
+            return [(i,w) for i,w in enumerate(shap_values[int(query_label)][0])]
+        elif isinstance(self.model, tf.keras.Model):
+            shap_values = self.shap_explainer.shap_values(np.array([query]))
+            print(shap_values)
+            return [(i,w) for i,w in enumerate(shap_values[int(query_label)][0])]
+        
+    
diff --git a/discern/util.py b/discern/util.py
@@ -9,7 +9,6 @@ def nun(data, labels, query, query_label, cf_label):
     top_labels = [labels[j] for j in top_indices[:sample_size]]
     for i, lab in enumerate(top_labels):
         if query_label != lab and lab == cf_label:
-            nun_index = i
-            break
-    return data[top_indices[nun_index]], top_labels[nun_index]
-
+            nun_index = i    
+            return data[top_indices[nun_index]], top_labels[nun_index]
+    raise Exception('NUN not found.')
diff --git a/setup.py b/setup.py
@@ -1,6 +1,6 @@
 import setuptools
 
-VERSION_STR = "0.0.26"
+VERSION_STR = "0.0.27"
 
 with open("README.md", "r") as fh:
     long_description = fh.read()
diff --git a/tests/cancer_risk.py b/tests/cancer_risk.py
@@ -4,9 +4,12 @@
 from sklearn.preprocessing import MinMaxScaler
 from sklearn.ensemble import RandomForestClassifier
 from sklearn.metrics import accuracy_score
+import os
+import numpy as np
+import tensorflow as tf
 
-def test_cancer_risk():
-    data_df = pd.read_csv('lung_cancer.csv')
+def sklearn_test(attrib):
+    data_df = pd.read_csv(os.path.join(os.path.dirname(__file__), 'lung_cancer.csv'))
     data_df = data_df.replace({'Level': {'Low': 0, 'Medium': 1, 'High': 2}})
     data_df = data_df.replace({'Gender': {2: 0}})
     data_df = data_df.replace({'Alcohol use': {2: 0}})
@@ -28,37 +31,105 @@ def test_cancer_risk():
     print("Train test split complete!")
     
     scaler = MinMaxScaler()
-    x_train= scaler.fit_transform(x_train)
-    x_test = scaler.transform(x_test)
+    x_train_norm = scaler.fit_transform(x_train)
+    x_test_norm = scaler.transform(x_test)
     print("Data transform complete!")
 
-    rfx = RandomForestClassifier(n_estimators=500)
+    rfx = RandomForestClassifier(n_estimators=100)
     rfx.fit(x_train, y_train)
     print(accuracy_score(y_test, rfx.predict(x_test)))
     print("Training classifier complete!")
 
-    x_test = x_test[:10]
-    y_test = rfx.predict(x_test[:10])
+    test_instance = x_test_norm[10]
+    test_label = rfx.predict([x_test_norm[10]])[0]
     cat_indices = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
+    imm_indices = [0, 1, 2]
+    discern = DisCERNTabular(rfx, attrib)
+    discern.init_data(x_train_norm, y_train, [c for c in df.columns if c!='Level'], ['Low', 'Medium', 'High'], cat_feature_indices=cat_indices, immutable_feature_indices=imm_indices)
 
-    sparsity = []
-    proximity = []
-    discern = DisCERNTabular(rfx, 'LIME', 'Q')
-    discern.init_data(x_train, y_train, [c for c in df.columns if c!='Level'], ['Low', 'Medium', 'High'], cat_feature_indices=cat_indices)
+    cf, cf_label, s, p = discern.find_cf(test_instance, test_label, cf_label=0)
+    print('---------------------sklearn-'+attrib+'---------------------')
+    print(cf, cf_label)
+    print(test_instance, test_label)
+    print("Sparsity: ",s, "Proximity: ", p)
 
-    for idx in range(len(x_test)):
-        if y_test[idx] == 0:
-            continue
-        cf, s, p = discern.find_cf(x_test[idx], y_test[idx], desired_class='Low')
-        print(s)
-        print(p)
-        sparsity.append(s)
-        proximity.append(p)
 
-    _sparsity = sum(sparsity)/len(sparsity)
-    _proximity = sum(proximity)/(len(proximity)*_sparsity)
-    print(_sparsity)
-    print(_proximity)
+def keras_test(attrib):
+    data_df = pd.read_csv(os.path.join(os.path.dirname(__file__), 'lung_cancer.csv'))
+    data_df = data_df.replace({'Level': {'Low': 0, 'Medium': 1, 'High': 2}})
+    data_df = data_df.replace({'Gender': {2: 0}})
+    data_df = data_df.replace({'Alcohol use': {2: 0}})
+    data_df = data_df.replace({'Dust Allergy': {2: 0}})
+    data_df = data_df.replace({'Smoking': {2: 0}})
+    data_df = data_df.replace({'Chest Pain': {2: 0}})
+    data_df = data_df.replace({'Fatigue': {2: 0}})
+    data_df = data_df.replace({'Shortness of Breath': {2: 0}})
+    data_df = data_df.replace({'Wheezing': {2: 0}})
+    data_df = data_df.replace({'Swallowing Difficulty': {2: 0}})
+    data_df = data_df.replace({'Cough': {2: 0}})
+    data_df = data_df.replace({'chronic Lung Disease': {2: 0}})
+    print("Reading data complete!")
+
+    df = data_df.copy()
+    x = df.loc[:, df.columns != 'Level'].values
+    y = df['Level'].values
+    x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.33, random_state=1)
+    print("Train test split complete!")
+    
+    scaler = MinMaxScaler()
+    x_train_norm = scaler.fit_transform(x_train)
+    x_test_norm = scaler.transform(x_test)
+    y_train_cat = tf.keras.utils.to_categorical(y_train, num_classes=len(df['Level'].unique()), dtype='float32')
+    y_test_cat = tf.keras.utils.to_categorical(y_test, num_classes=len(df['Level'].unique()), dtype='float32')      
+    print("Data transform complete!")
+
+    inputs = tf.keras.Input(shape=(x_train_norm.shape[-1],))
+    hidden1 = tf.keras.layers.Dense(64, activation='relu')(inputs)
+    hidden2 = tf.keras.layers.Dense(64, activation='relu')(hidden1)
+    outputs = tf.keras.layers.Dense(len(df['Level'].unique()), activation='softmax')(hidden2)
+
+    model = tf.keras.Model(inputs=inputs, outputs=outputs, name="model")
+
+    model.compile(
+        loss='categorical_crossentropy',
+        optimizer='Adam',
+        metrics=['accuracy'])
+
+    model.fit(x_train_norm, y_train_cat, validation_data=(x_test, y_test_cat), batch_size=32, epochs=5, verbose=0)
+    print("Training classifier complete: ", accuracy_score(y_test, model.predict(x_test_norm).argmax(axis=-1)))
+
+    test_instance = x_test_norm[12]
+    test_label = model.predict(np.array([x_test_norm[12]])).argmax(axis=-1)[0]
+
+    cat_indices = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11, 12]
+    imm_indices = [0, 1, 2]
+    discern = DisCERNTabular(model, attrib)
+    print('labels', set( model.predict(x_train_norm).argmax(axis=-1)))
+    discern.init_data(x_train_norm, model.predict(x_train_norm).argmax(axis=-1), [c for c in df.columns if c!='Level'], ['Low', 'Medium', 'High'], cat_feature_indices=cat_indices, immutable_feature_indices=imm_indices)
 
+    cf, cf_label, s, p = discern.find_cf(test_instance, test_label, cf_label=0)
+    print('---------------------sklearn-'+attrib+'---------------------')
+    print(cf, cf_label)
+    print(test_instance, test_label)
+    print("Sparsity: ",s, "Proximity: ", p)
 
-test_cancer_risk()
+try:
+    sklearn_test('LIME')
+except:
+    None
+try:
+    sklearn_test('SHAP')
+except:
+    None
+try:
+    keras_test('LIME')
+except:
+    None
+try:
+    keras_test('SHAP')
+except:
+    None
+try:
+    keras_test('IntG')
+except:
+    None