Pipe line fail if flake8 fail - issue 5

ArturU043 · ArturU043 · commit f21e92e78fd6 · 2025-04-11T17:36:51.000+02:00
diff --git a/.github/workflows/CI.yml b/.github/workflows/CI.yml
@@ -21,8 +21,11 @@ jobs:
       - name: Lint with Flake8
         run: |
           pipx run flake8
-          
+
   test:
+    needs:
+      - flake8
+  
     runs-on: ubuntu-latest
 
     steps:
diff --git a/servicex_analysis_utils/__init__.py b/servicex_analysis_utils/__init__.py
@@ -25,8 +25,8 @@
 # CAUSED AND ON ANY THEORY OF LIABILITY, WHETHER IN CONTRACT, STRICT LIABILITY,
 # OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
-from .materialization import to_awk 
+from .materialization import to_awk
 from .file_peeking import get_structure
 
 __version__ = "1.0.b1"
-__all__ = ['to_awk']
+__all__ = ["to_awk"]
diff --git a/servicex_analysis_utils/materialization.py b/servicex_analysis_utils/materialization.py
@@ -27,8 +27,9 @@
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 import uproot
 import awkward as ak
-import dask_awkward as dak 
-import logging 
+import dask_awkward as dak
+import logging
+
 
 def to_awk(deliver_dict, dask=False, iterator=False, **kwargs):
     """
@@ -41,51 +42,54 @@ def to_awk(deliver_dict, dask=False, iterator=False, **kwargs):
         iterator(bool):      Optional. Flag to materialize the data into arrays or to return iterables with uproot.iterate
         **kwargs :   Optional. Additional keyword arguments passed to uproot.dask, uproot.iterate and from_parquet
 
-    
+
     Returns:
         dict: keys are sample names and values are awkward arrays, uproot generator objects or dask-awkward arrays.
     """
-  
+
     awk_arrays = {}
 
     for sample, paths in deliver_dict.items():
-        #Check file type
-        f_type=str(paths[0])
+        # Check file type
+        f_type = str(paths[0])
         if f_type.endswith(".root"):
-            is_root=True
+            is_root = True
         elif f_type.endswith(".parquet") or f_type.endswith(".pq"):
-            is_root=False 
+            is_root = False
             # ServiceX supports only root/parquet in transformed files
         else:
-            raise ValueError(f"Unsupported file format: '{paths[0]}'. Files must be ROOT (.root) or Parquet (.parquet, .pq)")
-        
+            raise ValueError(
+                f"Unsupported file format: '{paths[0]}'. Files must be ROOT (.root) or Parquet (.parquet, .pq)"
+            )
+
         try:
             if dask:
-                if is_root==True:
-                    # Use uproot.dask to handle URLs and local paths lazily 
+                if is_root == True:
+                    # Use uproot.dask to handle URLs and local paths lazily
                     awk_arrays[sample] = uproot.dask(paths, library="ak", **kwargs)
                 else:
-                    #file is parquet 
+                    # file is parquet
                     awk_arrays[sample] = dak.from_parquet(paths, **kwargs)
             else:
-                if is_root==True:
+                if is_root == True:
                     # Use uproot.iterate to handle URLs and local paths files in chunks
-                    iterators=uproot.iterate(paths, library="ak", **kwargs)
-                    if iterator==True:
-                        awk_arrays[sample]= iterators #return iterators
-                    else :
-                        awk_arrays[sample]=ak.concatenate(list(iterators)) #return array
-    
+                    iterators = uproot.iterate(paths, library="ak", **kwargs)
+                    if iterator == True:
+                        awk_arrays[sample] = iterators  # return iterators
+                    else:
+                        awk_arrays[sample] = ak.concatenate(
+                            list(iterators)
+                        )  # return array
+
                 else:
-                    #file is parquet 
+                    # file is parquet
                     awk_arrays[sample] = ak.from_parquet(paths, **kwargs)
 
-
         except Exception as e:
-            # Log the exception pointing at the user's code 
-            msg=f"\nError loading sample: {sample}"
+            # Log the exception pointing at the user's code
+            msg = f"\nError loading sample: {sample}"
             logging.error(msg, exc_info=True, stacklevel=2)
             # Mark the sample as failed
             awk_arrays[sample] = None
 
-    return awk_arrays
+    return awk_arrays
diff --git a/tests/test_materialization.py b/tests/test_materialization.py
@@ -26,10 +26,10 @@
 # OR TORT (INCLUDING NEGLIGENCE OR OTHERWISE) ARISING IN ANY WAY OUT OF THE USE
 # OF THIS SOFTWARE, EVEN IF ADVISED OF THE POSSIBILITY OF SUCH DAMAGE.
 import pytest
-import uproot 
+import uproot
 import awkward as ak
-import dask_awkward as dak 
-import logging 
+import dask_awkward as dak
+import logging
 import os
 import sys
 import numpy as np
@@ -43,113 +43,119 @@ def build_test_samples(tmp_path):
     test_path1 = str(tmp_path / "test_file1.root")
     test_path2 = str(tmp_path / "test_file2.root")
     # example data for two branches
-    tree_data1 = {
-    "branch1": np.ones(100),
-    "branch2": np.zeros(100)
-    }
+    tree_data1 = {"branch1": np.ones(100), "branch2": np.zeros(100)}
     # example data for one branch
-    tree_data2 = {"branch1": np.ones(10)}  
+    tree_data2 = {"branch1": np.ones(10)}
 
     # Create tmp .root files
     with uproot.create(test_path1) as file:
         file["Tree"] = tree_data1
-    
+
     with uproot.create(test_path2) as file:
         file["Tree"] = tree_data2
 
-    #Dict like servicex.deliver() output
+    # Dict like servicex.deliver() output
     sx_dict = {"Test-Sample1": [test_path1], "Test-Sample2": [test_path2]}
 
     return sx_dict
 
 
-#Test functions
+# Test functions
 def test_to_awk(build_test_samples):
     sx_dict = build_test_samples
-    result = to_awk(sx_dict) #uproot.iterate expressions kwarg
+    result = to_awk(sx_dict)  # uproot.iterate expressions kwarg
 
-    #Collecting all samples 
-    assert list(result.keys())==["Test-Sample1", "Test-Sample2"]
+    # Collecting all samples
+    assert list(result.keys()) == ["Test-Sample1", "Test-Sample2"]
     arr1 = result["Test-Sample1"]
     arr2 = result["Test-Sample2"]
- 
-  
-
-    #Collecting all branches
-    assert ak.fields(arr1) == ['branch1', 'branch2']
-    assert ak.fields(arr2) == ['branch1']
-    
-    assert isinstance(arr1, ak.Array), "to_awk() does not produce an awkward.Array instance"
-    assert isinstance(arr2, ak.Array), "to_awk() does not produce an awkward.Array instance"
-  
-    #Collecting all elements per branch
-    assert ak.all(arr1['branch2'] == ak.from_numpy(np.zeros(100)))
-    assert ak.all(arr2['branch1'] == ak.from_numpy(np.ones(10)))
-
-    #Checking kwargs
-    result_filtered = to_awk(sx_dict, expressions="branch1") #uproot.iterate expressions kwarg
-    arr1_filtered=result_filtered["Test-Sample1"]
-    assert ak.fields(arr1_filtered) == ['branch1'] #branch2 should be filtered out
+
+    # Collecting all branches
+    assert ak.fields(arr1) == ["branch1", "branch2"]
+    assert ak.fields(arr2) == ["branch1"]
+
+    assert isinstance(
+        arr1, ak.Array
+    ), "to_awk() does not produce an awkward.Array instance"
+    assert isinstance(
+        arr2, ak.Array
+    ), "to_awk() does not produce an awkward.Array instance"
+
+    # Collecting all elements per branch
+    assert ak.all(arr1["branch2"] == ak.from_numpy(np.zeros(100)))
+    assert ak.all(arr2["branch1"] == ak.from_numpy(np.ones(10)))
+
+    # Checking kwargs
+    result_filtered = to_awk(
+        sx_dict, expressions="branch1"
+    )  # uproot.iterate expressions kwarg
+    arr1_filtered = result_filtered["Test-Sample1"]
+    assert ak.fields(arr1_filtered) == ["branch1"]  # branch2 should be filtered out
 
 
 def test_to_awk_dask(build_test_samples):
     sx_dict = build_test_samples
-    result_da = to_awk(sx_dict, dask=True, step_size=10) #uproot.dask step_size kwarg
-    
-    #Collecting all samples 
-    assert list(result_da.keys())==["Test-Sample1", "Test-Sample2"]
-    arr1=result_da["Test-Sample1"]
-    arr2=result_da["Test-Sample2"]
-
-    #Checking instance
-    assert isinstance(arr1, dak.Array), "to_awk(dask=True) does not produce an dak.Array instance"
-    assert isinstance(arr2, dak.Array), "to_awk(dask=True) does not produce an dak.Array instance"
-
-    #Testing partitionning kwarg
+    result_da = to_awk(sx_dict, dask=True, step_size=10)  # uproot.dask step_size kwarg
+
+    # Collecting all samples
+    assert list(result_da.keys()) == ["Test-Sample1", "Test-Sample2"]
+    arr1 = result_da["Test-Sample1"]
+    arr2 = result_da["Test-Sample2"]
+
+    # Checking instance
+    assert isinstance(
+        arr1, dak.Array
+    ), "to_awk(dask=True) does not produce an dak.Array instance"
+    assert isinstance(
+        arr2, dak.Array
+    ), "to_awk(dask=True) does not produce an dak.Array instance"
+
+    # Testing partitionning kwarg
     assert arr1.npartitions == 10
     assert arr2.npartitions == 1
 
-    #Collecting all branches
-    assert ak.fields(arr1) == ['branch1', 'branch2']
-    assert ak.fields(arr2) == ['branch1']
+    # Collecting all branches
+    assert ak.fields(arr1) == ["branch1", "branch2"]
+    assert ak.fields(arr2) == ["branch1"]
+
+    # Collecting all elements per branch
+    assert ak.all(arr1["branch2"].compute() == ak.from_numpy(np.zeros(100)))
+    assert ak.all(arr2["branch1"].compute() == ak.from_numpy(np.ones(10)))
 
-    #Collecting all elements per branch
-    assert ak.all(arr1['branch2'].compute() == ak.from_numpy(np.zeros(100)))
-    assert ak.all(arr2['branch1'].compute() == ak.from_numpy(np.ones(10)))
 
 def test_to_awk_delayed_and_kwargs(build_test_samples):
     sx_dict = build_test_samples
-    result_delay = to_awk(sx_dict, iterator=True, expressions="branch1") #return iterable + selection kwarg
-        
-    #Checking iterator return type
-    assert isinstance(result_delay["Test-Sample1"], types.GeneratorType)  
-    assert isinstance(result_delay["Test-Sample2"], types.GeneratorType)  
+    result_delay = to_awk(
+        sx_dict, iterator=True, expressions="branch1"
+    )  # return iterable + selection kwarg
 
+    # Checking iterator return type
+    assert isinstance(result_delay["Test-Sample1"], types.GeneratorType)
+    assert isinstance(result_delay["Test-Sample2"], types.GeneratorType)
 
-    arr1 = ak.concatenate(list(result_delay["Test-Sample1"]))  # Materialize the generator from uproot.iterate  
+    arr1 = ak.concatenate(
+        list(result_delay["Test-Sample1"])
+    )  # Materialize the generator from uproot.iterate
     arr2 = ak.concatenate(list(result_delay["Test-Sample2"]))
 
-    #Checking materialization
-    assert isinstance(arr1, ak.Array), "to_awk(dask=True) does not produce an ak.Array instance"
-    assert isinstance(arr2, ak.Array), "to_awk(dask=True) does not produce an ak.Array instance"
+    # Checking materialization
+    assert isinstance(
+        arr1, ak.Array
+    ), "to_awk(dask=True) does not produce an ak.Array instance"
+    assert isinstance(
+        arr2, ak.Array
+    ), "to_awk(dask=True) does not produce an ak.Array instance"
+
+    # Checking only 1 branch selected
+    assert ak.fields(arr1) == ["branch1"]
+    assert ak.fields(arr2) == ["branch1"]
 
-    #Checking only 1 branch selected
-    assert ak.fields(arr1) == ['branch1']
-    assert ak.fields(arr2) == ['branch1']
 
 def test_unsupported_file_format():
     fake_paths = {"fake-Sample": ["invalid_file.txt"]}
     # match is regex-level
-    with pytest.raises(ValueError, match=r"Unsupported file format: 'invalid_file.txt'\. Files must be ROOT \(.*\) or Parquet \(.*\)"):
+    with pytest.raises(
+        ValueError,
+        match=r"Unsupported file format: 'invalid_file.txt'\. Files must be ROOT \(.*\) or Parquet \(.*\)",
+    ):
         to_awk(fake_paths)
-
-
-
-
-
-
-
-
-
-    
-
diff --git a/tests/test_materialization_parquet.py b/tests/test_materialization_parquet.py