FAI-416 - TrustyAI explainability benchmarks (#81)

tteofili · web-flow · commit 7957fa993779 · 2022-12-07T10:27:28.000+01:00
* FAI-416 - lime impact-score benchmark draft

* FAI-416 - added LIME and SHAP impact score benchmark with sumskip model

* FAI-416 - benchmarks with sumthreshold

* FAI-416 - minor adjustments

* updates to benchmarks

* FAI-416 - reporting mean impact score

* FAI-416 - adapted benchmark_commons to work with unified results

* FAI-416 - extended benchmarks to check local saliency f1

* FAI-416 - pylint related fixes

* FAI-416 - pylint related fixes

* FAI-416 - pylint related fixes

* FAI-416 - pylint related fixes

* FAI-416 - pylint related fixes

* FAI-416 - restored correct requirements-dev.txt, fixed import for metrics package

* FAI-416 - dropped stale arrow param
diff --git a/requirements-dev.txt b/requirements-dev.txt
@@ -16,4 +16,4 @@ matplotlib==3.5.1
 pandas==1.2.5
 pytest-xdist==2.5.0
 pytest-benchmark
-bokeh==2.4.3
+bokeh==2.4.3
diff --git a/src/trustyai/metrics/__init__.py b/src/trustyai/metrics/__init__.py
@@ -1,7 +1,7 @@
 # pylint: disable = import-error, invalid-name, wrong-import-order, no-name-in-module
 """General model classes"""
 from trustyai import _default_initializer  # pylint: disable=unused-import
-from org.kie.kogito.explainability.utils import (
+from org.kie.trustyai.explainability.metrics import (
     ExplainabilityMetrics as _ExplainabilityMetrics,
 )
 
diff --git a/src/trustyai/metrics/saliency.py b/src/trustyai/metrics/saliency.py
@@ -0,0 +1,147 @@
+# pylint: disable = import-error
+"""Saliency evaluation metrics"""
+from typing import Union
+
+from org.apache.commons.lang3.tuple import (
+    Pair as _Pair,
+)
+
+from org.kie.trustyai.explainability.model import (
+    PredictionInput,
+    PredictionInputsDataDistribution
+)
+from org.kie.trustyai.explainability.local import LocalExplainer
+
+from jpype import JObject
+
+from trustyai.model import simple_prediction, PredictionProvider
+from trustyai.explainers import SHAPExplainer, LimeExplainer
+
+from . import ExplainabilityMetrics
+
+
+def impact_score(model: PredictionProvider, pred_input: PredictionInput,
+                 explainer: Union[LimeExplainer, SHAPExplainer],
+                 k: int, is_model_callable: bool = False):
+    """
+    Parameters
+    ----------
+    model: trustyai.PredictionProvider
+        the model used to generate predictions
+    pred_input: trustyai.PredictionInput
+        the input to the model
+    explainer: Union[trustyai.explainers.LimeExplainer, trustyai.explainers.SHAPExplainer]
+        the explainer to evaluate
+    k: int
+        the number of top important features
+    is_model_callable: bool
+        whether to directly use model function call or use the predict method
+
+    Returns
+    -------
+    :float:
+        impact score metric
+    """
+    if is_model_callable:
+        output = model(pred_input)
+    else:
+        output = model.predict([pred_input])[0].outputs
+    pred = simple_prediction(pred_input, output)
+    explanation = explainer.explain(inputs=pred_input, outputs=output, model=model)
+    saliency = list(explanation.saliency_map().values())[0]
+    top_k_features = saliency.getTopFeatures(k)
+    return ExplainabilityMetrics.impactScore(model, pred, top_k_features)
+
+
+def mean_impact_score(explainer: Union[LimeExplainer, SHAPExplainer],
+                      model: PredictionProvider, data: list, is_model_callable=False, k=2):
+    """
+    Parameters
+    ----------
+    explainer: Union[trustyai.explainers.LimeExplainer, trustyai.explainers.SHAPExplainer]
+        the explainer to evaluate
+    model: trustyai.PredictionProvider
+        the model used to generate predictions
+    data: list[list[trustyai.model.Feature]]
+        the inputs to calculate the metric for
+    is_model_callable: bool
+        whether to directly use model function call or use the predict method
+    k: int
+        the number of top important features
+
+    Returns
+    -------
+    :float:
+        the mean impact score metric across all inputs
+    """
+    m_is = 0
+    for features in data:
+        m_is += impact_score(model, features, explainer, k, is_model_callable=is_model_callable)
+    return m_is / len(data)
+
+
+def classification_fidelity(explainer: Union[LimeExplainer, SHAPExplainer],
+                            model: PredictionProvider, inputs: list,
+                            is_model_callable: bool = False):
+    """
+    Parameters
+    ----------
+    explainer: Union[trustyai.explainers.LimeExplainer, trustyai.explainers.SHAPExplainer]
+        the explainer to evaluate
+    model: trustyai.PredictionProvider
+        the model used to generate predictions
+    inputs: list[list[trustyai.model.Feature]]
+        the inputs to calculate the metric for
+    is_model_callable: bool
+        whether to directly use model function call or use the predict method
+
+    Returns
+    -------
+    :float:
+        the classification fidelity metric
+    """
+    pairs = []
+    for c_input in inputs:
+        if is_model_callable:
+            output = model(c_input)
+        else:
+            output = model.predict([c_input])[0].outputs
+        explanation = explainer.explain(inputs=c_input, outputs=output, model=model)
+        saliency = list(explanation.saliency_map().values())[0]
+        pairs.append(_Pair.of(saliency, simple_prediction(c_input, output)))
+    return ExplainabilityMetrics.classificationFidelity(pairs)
+
+# pylint: disable = too-many-arguments
+def local_saliency_f1(output_name: str, model: PredictionProvider,
+                      explainer: Union[LimeExplainer, SHAPExplainer],
+                      distribution: PredictionInputsDataDistribution, k: int,
+                      chunk_size: int):
+    """
+    Parameters
+    ----------
+    output_name: str
+        the name of the output to calculate the metric for
+    model: trustyai.PredictionProvider
+        the model used to generate predictions
+    explainer: Union[trustyai.explainers.LIMEExplainer, trustyai.explainers.SHAPExplainer,
+                trustyai.explainers.LocalExplainer]
+        the explainer to evaluate
+    distribution: org.kie.trustyai.explainability.model.PredictionInputsDataDistribution
+        the data distribution to fetch the inputs from
+    k: int
+        the number of top important features
+    chunk_size: int
+        the chunk of inputs to fetch fro the distribution
+
+    Returns
+    -------
+    :float:
+        the local saliency f1 metric
+    """
+    if not isinstance(explainer, LocalExplainer):
+        # pylint: disable = protected-access
+        local_explainer = JObject(explainer._explainer, LocalExplainer)
+    else:
+        local_explainer = explainer
+    return ExplainabilityMetrics.getLocalSaliencyF1(output_name, model, local_explainer,
+                                                    distribution, k, chunk_size)
diff --git a/tests/benchmarks/benchmark.py b/tests/benchmarks/benchmark.py
@@ -4,13 +4,21 @@
 import sys
 import pytest
 import time
+import numpy as np
+
+from trustyai.explainers import LimeExplainer, SHAPExplainer
+from trustyai.model import feature, PredictionInput
+from trustyai.utils import TestModels
+from trustyai.metrics.saliency import mean_impact_score, classification_fidelity, local_saliency_f1
+
+from org.kie.trustyai.explainability.model import (
+    PredictionInputsDataDistribution,
+)
 
 myPath = os.path.dirname(os.path.abspath(__file__))
 sys.path.insert(0, myPath + "/../general/")
 
 import test_counterfactualexplainer as tcf
-import test_limeexplainer as tlime
-
 
 @pytest.mark.benchmark(
     group="counterfactuals", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
@@ -35,9 +43,147 @@ def test_counterfactual_match_python_model(benchmark):
     """Counterfactual match (Python model)"""
     benchmark(tcf.test_counterfactual_match_python_model)
 
-# @pytest.mark.benchmark(
-#     group="lime", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
-# )
-# def test_non_empty_input(benchmark):
-#     """Counterfactual match (Python model)"""
-#     benchmark(tlime.test_non_empty_input)
+
+@pytest.mark.benchmark(
+    group="lime", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_sumskip_lime_impact_score_at_2(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    explainer = LimeExplainer()
+    model = TestModels.getSumSkipModel(0)
+    data = []
+    for i in range(100):
+        data.append([feature(name=f"f-num{i}", value=np.random.randint(-10, 10), dtype="number") for i in range(no_of_features)])
+    benchmark.extra_info['metric'] = mean_impact_score(explainer, model, data)
+    benchmark(mean_impact_score, explainer, model, data)
+
+
+@pytest.mark.benchmark(
+    group="shap", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_sumskip_shap_impact_score_at_2(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    background = []
+    for i in range(10):
+        background.append(PredictionInput([feature(name=f"f-num{i}", value=np.random.randint(-10, 10), dtype="number") for i in range(no_of_features)]))
+    explainer = SHAPExplainer(background, samples=10000)
+    model = TestModels.getSumSkipModel(0)
+    data = []
+    for i in range(100):
+        data.append([feature(name=f"f-num{i}", value=np.random.randint(-10, 10), dtype="number") for i in range(no_of_features)])
+    benchmark.extra_info['metric'] = mean_impact_score(explainer, model, data)
+    benchmark(mean_impact_score, explainer, model, data)
+
+
+@pytest.mark.benchmark(
+    group="lime", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_sumthreshold_lime_impact_score_at_2(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    explainer = LimeExplainer()
+    center = 100.0
+    epsilon = 10.0
+    model = TestModels.getSumThresholdModel(center, epsilon)
+    data = []
+    for i in range(100):
+        data.append([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in range(no_of_features)])
+    benchmark.extra_info['metric'] = mean_impact_score(explainer, model, data)
+    benchmark(mean_impact_score, explainer, model, data)
+
+
+@pytest.mark.benchmark(
+    group="shap", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_sumthreshold_shap_impact_score_at_2(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    background = []
+    for i in range(100):
+        background.append(PredictionInput([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in range(no_of_features)]))
+    explainer = SHAPExplainer(background, samples=10000)
+    center = 100.0
+    epsilon = 10.0
+    model = TestModels.getSumThresholdModel(center, epsilon)
+    data = []
+    for i in range(100):
+        data.append([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in range(no_of_features)])
+    benchmark.extra_info['metric'] = mean_impact_score(explainer, model, data)
+    benchmark(mean_impact_score, explainer, model, data)
+
+
+@pytest.mark.benchmark(
+    group="lime", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_lime_fidelity(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    explainer = LimeExplainer()
+    model = TestModels.getEvenSumModel(0)
+    data = []
+    for i in range(100):
+        data.append([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in range(no_of_features)])
+    benchmark.extra_info['metric'] = classification_fidelity(explainer, model, data)
+    benchmark(classification_fidelity, explainer, model, data)
+
+
+@pytest.mark.benchmark(
+    group="shap", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_shap_fidelity(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    background = []
+    for i in range(10):
+        background.append(PredictionInput(
+            [feature(name=f"f-num{i}", value=np.random.randint(-10, 10), dtype="number") for i in
+             range(no_of_features)]))
+    explainer = SHAPExplainer(background, samples=10000)
+    model = TestModels.getEvenSumModel(0)
+    data = []
+    for i in range(100):
+        data.append([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in
+                     range(no_of_features)])
+    benchmark.extra_info['metric'] = classification_fidelity(explainer, model, data)
+    benchmark(classification_fidelity, explainer, model, data)
+
+
+@pytest.mark.benchmark(
+    group="lime", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_lime_local_saliency_f1(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    explainer = LimeExplainer()
+    model = TestModels.getEvenSumModel(0)
+    output_name = "sum-even-but0"
+    data = []
+    for i in range(100):
+        data.append(PredictionInput([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in range(no_of_features)]))
+    distribution = PredictionInputsDataDistribution(data)
+    benchmark.extra_info['metric'] = local_saliency_f1(output_name, model, explainer, distribution, 2, 10)
+    benchmark(local_saliency_f1, output_name, model, explainer, distribution, 2, 10)
+
+
+@pytest.mark.benchmark(
+    group="shap", min_rounds=10, timer=time.time, disable_gc=True, warmup=True
+)
+def test_shap_local_saliency_f1(benchmark):
+    no_of_features = 10
+    np.random.seed(0)
+    background = []
+    for i in range(10):
+        background.append(PredictionInput(
+            [feature(name=f"f-num{i}", value=np.random.randint(-10, 10), dtype="number") for i in
+             range(no_of_features)]))
+    explainer = SHAPExplainer(background, samples=10000)
+    model = TestModels.getEvenSumModel(0)
+    output_name = "sum-even-but0"
+    data = []
+    for i in range(100):
+        data.append(PredictionInput([feature(name=f"f-num{i}", value=np.random.randint(-100, 100), dtype="number") for i in range(no_of_features)]))
+    distribution = PredictionInputsDataDistribution(data)
+    benchmark.extra_info['metric'] = local_saliency_f1(output_name, model, explainer, distribution, 2, 10)
+    benchmark(local_saliency_f1, output_name, model, explainer, distribution, 2, 10)
diff --git a/tests/benchmarks/benchmark_common.py b/tests/benchmarks/benchmark_common.py
diff --git a/tests/benchmarks/trustyai_xai_bench b/tests/benchmarks/trustyai_xai_bench
@@ -1 +1 @@
-Subproject commit de40e6b973a63faf38fc07938d6adae9f2f8e418
+Subproject commit cb90cba2f2e48fee8e37453416931cc75841f81b
diff --git a/tests/general/test_limeexplainer.py b/tests/general/test_limeexplainer.py
@@ -7,7 +7,8 @@
 
 from trustyai.explainers import LimeExplainer
 from trustyai.utils import TestModels
-from trustyai.model import feature, Model
+from trustyai.model import feature, Model, simple_prediction
+from trustyai.metrics import ExplainabilityMetrics
 
 from org.kie.trustyai.explainability.local import (
     LocalExplanationException,
@@ -126,3 +127,19 @@ def test_lime_v2():
     explanation = explainer.explain(inputs=data, outputs=model(data), model=model)
     for score in explanation.as_dataframe()["output-0_score"]:
         assert score != 0
+
+def test_impact_score():
+    np.random.seed(0)
+    data = pd.DataFrame(np.random.rand(1, 5))
+    model_weights = np.random.rand(5)
+    predict_function = lambda x: np.dot(x.values, model_weights)
+    model = Model(predict_function, dataframe_input=True)
+    output = model(data)
+    pred = simple_prediction(data, output)
+    explainer = LimeExplainer(samples=100, perturbations=2, seed=23, normalise_weights=False)
+    explanation = explainer.explain(inputs=data, outputs=output, model=model)
+    saliency = list(explanation.saliency_map().values())[0]
+    top_features_t = saliency.getTopFeatures(2)
+    impact = ExplainabilityMetrics.impactScore(model, pred, top_features_t)
+    assert impact > 0
+    return impact

Original file line number	Diff line number	Diff line change
`@@ -1,7 +1,7 @@`
`1`	`1`	`# pylint: disable = import-error, invalid-name, wrong-import-order, no-name-in-module`
`2`	`2`	`"""General model classes"""`
`3`	`3`	`from trustyai import _default_initializer # pylint: disable=unused-import`
`4`		`-from org.kie.kogito.explainability.utils import (`
	`4`	`+from org.kie.trustyai.explainability.metrics import (`
`5`	`5`	`ExplainabilityMetrics as _ExplainabilityMetrics,`
`6`	`6`	`)`
`7`	`7`