Fix regression error

adam2392 · adam2392 · commit cc035d04b978 · 2023-06-23T15:42:08.000-04:00
Signed-off-by: Adam Li &lt;adam2392@gmail.com&gt;
diff --git a/sklearn/ensemble/_forest.py b/sklearn/ensemble/_forest.py
@@ -40,27 +40,28 @@ class calls the ``fit`` method of each sub-estimator on random samples
 # License: BSD 3 clause
 
 
-from time import time
 import threading
 from abc import ABCMeta, abstractmethod
 from numbers import Integral, Real
+from time import time
 from warnings import catch_warnings, simplefilter, warn
 
 import numpy as np
 from scipy.sparse import hstack as sparse_hstack
 from scipy.sparse import issparse
 
-from sklearn.base import is_classifier, _fit_context
 from sklearn.base import (
     ClassifierMixin,
     MultiOutputMixin,
     RegressorMixin,
     TransformerMixin,
+    _fit_context,
+    is_classifier,
 )
-
-from sklearn.metrics import accuracy_score, r2_score
-from sklearn.preprocessing import OneHotEncoder
+from sklearn.ensemble._base import BaseEnsemble, _partition_estimators
+from sklearn.ensemble._hist_gradient_boosting.binning import _BinMapper
 from sklearn.exceptions import DataConversionWarning
+from sklearn.metrics import accuracy_score, r2_score
 from sklearn.preprocessing import OneHotEncoder
 from sklearn.tree import (
     BaseDecisionTree,
@@ -69,8 +70,8 @@ class calls the ``fit`` method of each sub-estimator on random samples
     ExtraTreeClassifier,
     ExtraTreeRegressor,
 )
-from ..tree._tree import DOUBLE, DTYPE
 from sklearn.utils import check_random_state, compute_sample_weight
+from sklearn.utils._openmp_helpers import _openmp_effective_n_threads
 from sklearn.utils._param_validation import Interval, RealNotInt, StrOptions
 from sklearn.utils.multiclass import check_classification_targets, type_of_target
 from sklearn.utils.parallel import Parallel, delayed
@@ -80,9 +81,8 @@ class calls the ``fit`` method of each sub-estimator on random samples
     _num_samples,
     check_is_fitted,
 )
-from sklearn.ensemble._hist_gradient_boosting.binning import _BinMapper
-from sklearn.utils._openmp_helpers import _openmp_effective_n_threads
-from sklearn.ensemble._base import BaseEnsemble, _partition_estimators
+
+from ..tree._tree import DOUBLE, DTYPE
 
 __all__ = [
     "RandomForestClassifier",
diff --git a/sklearn/tree/_criterion.pyx b/sklearn/tree/_criterion.pyx
@@ -1496,10 +1496,11 @@ cdef class Poisson(RegressionCriterion):
     """Half Poisson deviance as impurity criterion.
 
     Poisson deviance = 2/n * sum(y_true * log(y_true/y_pred) + y_pred - y_true)
-    
+
     Note that the deviance is >= 0, and since we have `y_pred = mean(y_true)`
     at the leaves, one always has `sum(y_pred - y_true) = 0`. It remains the
     implemented impurity (factor 2 is skipped):
+
         1/n * sum(y_true * log(y_true/y_pred)
     """
     # FIXME in 1.0:
diff --git a/sklearn/tree/_splitter.pyx b/sklearn/tree/_splitter.pyx
@@ -507,6 +507,12 @@ cdef inline int node_split_best(
                 current_split.pos = p
 
                 # Reject if min_samples_leaf is not guaranteed
+                if missing_go_to_left:
+                    n_left = current_split.pos - splitter.start + n_missing
+                    n_right = end_non_missing - current_split.pos
+                else:
+                    n_left = current_split.pos - splitter.start
+                    n_right = end_non_missing - current_split.pos + n_missing
                 if splitter.check_presplit_conditions(current_split, n_missing, missing_go_to_left) == 1:
                     continue
 
diff --git a/sklearn/tree/tests/test_tree.py b/sklearn/tree/tests/test_tree.py
@@ -2426,7 +2426,9 @@ def test_missing_values_on_equal_nodes_no_missing(criterion):
     X = np.array([[0, 1, 2, 3, 8, 9, 11, 12, 15]]).T
     y = np.array([0.1, 0.2, 0.3, 0.2, 1.4, 1.4, 1.5, 1.6, 2.6])
 
-    dtc = DecisionTreeRegressor(random_state=42, max_depth=1, criterion=criterion, store_leaf_values=True)
+    dtc = DecisionTreeRegressor(
+        random_state=42, max_depth=1, criterion=criterion, store_leaf_values=True
+    )
     dtc.fit(X, y)
 
     # Goes to right node because it has the most data points