broadinstitute
diff --git a/‎v03_pipeline/lib/methods/sample_qc.py
Lines changed: 0 additions & 16 deletions b/‎v03_pipeline/lib/methods/sample_qc.py
Lines changed: 0 additions & 16 deletions
diff --git a/‎v03_pipeline/lib/paths.py
Lines changed: 2 additions & 2 deletions b/‎v03_pipeline/lib/paths.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎v03_pipeline/lib/tasks/write_metadata_for_run.py
Lines changed: 5 additions & 5 deletions b/‎v03_pipeline/lib/tasks/write_metadata_for_run.py
Lines changed: 5 additions & 5 deletions
diff --git a/‎v03_pipeline/lib/tasks/write_metadata_for_run_test.py
Lines changed: 4 additions & 4 deletions b/‎v03_pipeline/lib/tasks/write_metadata_for_run_test.py
Lines changed: 4 additions & 4 deletions
diff --git a/‎v03_pipeline/lib/tasks/write_remapped_and_subsetted_callset.py
Lines changed: 2 additions & 2 deletions b/‎v03_pipeline/lib/tasks/write_remapped_and_subsetted_callset.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎v03_pipeline/lib/tasks/write_sample_qc_tsv.py renamed to ‎v03_pipeline/lib/tasks/write_sample_qc_json.py
Lines changed: 17 additions & 4 deletions b/‎v03_pipeline/lib/tasks/write_sample_qc_tsv.py renamed to ‎v03_pipeline/lib/tasks/write_sample_qc_json.py
Lines changed: 17 additions & 4 deletions
diff --git a/‎v03_pipeline/lib/tasks/write_sample_qc_tsv_test.py renamed to ‎v03_pipeline/lib/tasks/write_sample_qc_json_test.py
Lines changed: 31 additions & 17 deletions b/‎v03_pipeline/lib/tasks/write_sample_qc_tsv_test.py renamed to ‎v03_pipeline/lib/tasks/write_sample_qc_json_test.py
Lines changed: 31 additions & 17 deletions
diff --git a/‎v03_pipeline/var/test/callsets/sample_qc_1.mt/.README.txt.crc
12 Bytes b/‎v03_pipeline/var/test/callsets/sample_qc_1.mt/.README.txt.crc
12 Bytes
diff --git a/‎v03_pipeline/var/test/callsets/sample_qc_1.mt/._SUCCESS.crc
8 Bytes b/‎v03_pipeline/var/test/callsets/sample_qc_1.mt/._SUCCESS.crc
8 Bytes
diff --git a/‎v03_pipeline/var/test/callsets/sample_qc_1.mt/.metadata.json.gz.crc
12 Bytes b/‎v03_pipeline/var/test/callsets/sample_qc_1.mt/.metadata.json.gz.crc
12 Bytes
@@ -1,7 +1,3 @@
-import csv
-import json
-from collections import defaultdict
-
 import hail as hl
 from gnomad.sample_qc.pipeline import filter_rows_for_qc
 
@@ -72,15 +68,3 @@ def annotate_filter_flags(
         'mean_coverage',
         'filtered_callrate',
     )
-
-
-def sample_qc_tsv_to_dict(tsv_file_path: str) -> dict:
-    parse_field_types = {'sample_type': str, 'filter_flags': json.loads}
-    sample_qc_dict = defaultdict(dict)
-    with open(tsv_file_path) as f:
-        reader = csv.DictReader(f, delimiter='\t')
-        for row in reader:
-            sample_id = row.pop('s')
-            for field, value in row.items():
-                sample_qc_dict[sample_id][field] = parse_field_types[field](value)
-    return sample_qc_dict
@@ -219,7 +219,7 @@ def relatedness_check_tsv_path(
     )
 
 
-def sample_qc_tsv_path(
+def sample_qc_json_path(
     reference_genome: ReferenceGenome,
     dataset_type: DatasetType,
     callset_path: str,
@@ -231,7 +231,7 @@ def sample_qc_tsv_path(
             dataset_type,
         ),
         'sample_qc',
-        f'{hashlib.sha256(callset_path.encode("utf8")).hexdigest()}.tsv',
+        f'{hashlib.sha256(callset_path.encode("utf8")).hexdigest()}.json',
     )
 
 
 
@@ -4,12 +4,11 @@
 import luigi
 import luigi.util
 
-from v03_pipeline.lib.methods.sample_qc import sample_qc_tsv_to_dict
 from v03_pipeline.lib.model import FeatureFlag
 from v03_pipeline.lib.paths import (
     metadata_for_run_path,
     relatedness_check_tsv_path,
-    sample_qc_tsv_path,
+    sample_qc_json_path,
 )
 from v03_pipeline.lib.tasks.base.base_loading_run_params import (
     BaseLoadingRunParams,
@@ -78,12 +77,13 @@ def run(self) -> None:
                 self.reference_genome,
             )
         ):
-            metadata_json['sample_qc'] = sample_qc_tsv_to_dict(
-                sample_qc_tsv_path(
+            with open(
+                sample_qc_json_path(
                     self.reference_genome,
                     self.dataset_type,
                     self.callset_path,
                 ),
-            )
+            ) as f:
+                metadata_json['sample_qc'] = json.load(f)
         with self.output().open('w') as f:
             json.dump(metadata_json, f)
@@ -14,13 +14,13 @@
 TEST_REMAP_2 = 'v03_pipeline/var/test/remaps/test_remap_2.tsv'
 TEST_PEDIGREE_3 = 'v03_pipeline/var/test/pedigrees/test_pedigree_3.tsv'
 TEST_PEDIGREE_4 = 'v03_pipeline/var/test/pedigrees/test_pedigree_4.tsv'
-TEST_SAMPLE_QC_TSV = 'v03_pipeline/var/test/sample_qc_1.tsv'
+TEST_SAMPLE_QC_JSON = 'v03_pipeline/var/test/sample_qc_1.json'
 
 
 class WriteMetadataForRunTaskTest(MockedDatarootTestCase):
     @mock.patch(
-        'v03_pipeline.lib.tasks.write_metadata_for_run.sample_qc_tsv_path',
-        lambda *_: TEST_SAMPLE_QC_TSV,
+        'v03_pipeline.lib.tasks.write_metadata_for_run.sample_qc_json_path',
+        lambda *_: TEST_SAMPLE_QC_JSON,
     )
     @mock.patch('v03_pipeline.lib.tasks.write_metadata_for_run.FeatureFlag')
     @mock.patch(
@@ -98,7 +98,7 @@ def test_write_metadata_for_run_task(
                     'sample_qc': {
                         'HG00731': {
                             'sample_type': 'WGS',
-                            'filter_flags': ['contamination', 'coverage'],
+                            'filter_flags': ['coverage', 'contamination'],
                         },
                         'HG00732': {
                             'sample_type': 'WGS',
 
@@ -28,7 +28,7 @@
 from v03_pipeline.lib.tasks.write_relatedness_check_tsv import (
     WriteRelatednessCheckTsvTask,
 )
-from v03_pipeline.lib.tasks.write_sample_qc_tsv import WriteSampleQCTsvTask
+from v03_pipeline.lib.tasks.write_sample_qc_json import WriteSampleQCJsonTask
 from v03_pipeline.lib.tasks.write_sex_check_table import WriteSexCheckTableTask
 from v03_pipeline.lib.tasks.write_validation_errors_for_run import (
     with_persisted_validation_errors,
@@ -92,7 +92,7 @@ def requires(self) -> list[luigi.Task]:
         ):
             requirements = [
                 *requirements,
-                self.clone(WriteSampleQCTsvTask),
+                self.clone(WriteSampleQCJsonTask),
             ]
         return requirements
 
 
@@ -1,22 +1,25 @@
+import json
+from collections import defaultdict
+
 import hail as hl
 import hailtop.fs as hfs
 import luigi
 import luigi.util
 
 from v03_pipeline.lib.methods.sample_qc import call_sample_qc
 from v03_pipeline.lib.misc.io import import_tdr_qc_metrics
-from v03_pipeline.lib.paths import sample_qc_tsv_path, tdr_metrics_dir
+from v03_pipeline.lib.paths import sample_qc_json_path, tdr_metrics_dir
 from v03_pipeline.lib.tasks.base.base_loading_run_params import BaseLoadingRunParams
 from v03_pipeline.lib.tasks.files import GCSorLocalTarget
 from v03_pipeline.lib.tasks.validate_callset import ValidateCallsetTask
 from v03_pipeline.lib.tasks.write_tdr_metrics_files import WriteTDRMetricsFilesTask
 
 
 @luigi.util.inherits(BaseLoadingRunParams)
-class WriteSampleQCTsvTask(luigi.Task):
+class WriteSampleQCJsonTask(luigi.Task):
     def output(self) -> luigi.Target:
         return GCSorLocalTarget(
-            sample_qc_tsv_path(
+            sample_qc_json_path(
                 self.reference_genome,
                 self.dataset_type,
                 self.callset_path,
@@ -46,4 +49,14 @@ def run(self):
             self.sample_type,
         )
         ht = callset_mt.cols()
-        ht.flatten().export(self.output().path)
+        sample_qc_dict = defaultdict(dict)
+        for row in ht.flatten().collect():
+            r = dict(row)
+            sample_id = r.pop('s')
+            for field, value in r.items():
+                sample_qc_dict[sample_id][field] = (
+                    list(value) if isinstance(value, set) else value
+                )
+
+        with self.output().open('w') as f:
+            json.dump(sample_qc_dict, f)
@@ -1,3 +1,4 @@
+import json
 from decimal import Decimal
 from unittest.mock import Mock, patch
 
@@ -6,14 +7,14 @@
 import luigi.worker
 
 from v03_pipeline.lib.model import DatasetType, ReferenceGenome, SampleType
-from v03_pipeline.lib.tasks.write_sample_qc_tsv import WriteSampleQCTsvTask
+from v03_pipeline.lib.tasks.write_sample_qc_json import WriteSampleQCJsonTask
 from v03_pipeline.lib.test.mocked_dataroot_testcase import MockedDatarootTestCase
 
 TEST_VCF = 'v03_pipeline/var/test/callsets/1kg_30variants.vcf'
 TEST_RUN_ID = 'manual__2024-04-03'
 
 
-class WriteSampleQCTsvTaskTest(MockedDatarootTestCase):
+class WriteSampleQCJsonTaskTest(MockedDatarootTestCase):
     @patch('v03_pipeline.lib.tasks.write_tdr_metrics_files.gen_bq_table_names')
     @patch('v03_pipeline.lib.tasks.write_tdr_metrics_file.bq_metrics_query')
     def test_call_sample_qc(
@@ -87,7 +88,7 @@ def test_call_sample_qc(
             ),
         ]
         worker = luigi.worker.Worker()
-        task = WriteSampleQCTsvTask(
+        task = WriteSampleQCJsonTask(
             reference_genome=ReferenceGenome.GRCh38,
             dataset_type=DatasetType.SNV_INDEL,
             run_id=TEST_RUN_ID,
@@ -102,17 +103,30 @@ def test_call_sample_qc(
         self.assertTrue(hfs.exists(task.output().path))
 
         with task.output().open('r') as f:
-            lines = f.readlines()
-            expected_first_five_lines = [
-                's\tsample_type\tfilter_flags\n',
-                'HG00731\tWGS\t["contamination","coverage"]\n',
-                'HG00732\tWGS\t["coverage"]\n',
-                'HG00733\tWGS\t["contamination"]\n',
-                'NA19675\tWGS\t[]\n',
-            ]
-            for expected_line, actual_line in zip(
-                expected_first_five_lines,
-                lines[:5],
-                strict=False,
-            ):
-                self.assertEqual(expected_line, actual_line)
+            self.assertDictEqual(
+                json.load(f),
+                {
+                    'HG00731': {
+                        'sample_type': 'WGS',
+                        'filter_flags': ['contamination', 'coverage'],
+                    },
+                    'HG00732': {'sample_type': 'WGS', 'filter_flags': ['coverage']},
+                    'HG00733': {
+                        'sample_type': 'WGS',
+                        'filter_flags': ['contamination'],
+                    },
+                    'NA19675': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA19678': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA19679': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20870': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20872': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20874': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20875': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20876': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20877': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20878': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20881': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20885': {'sample_type': 'WGS', 'filter_flags': []},
+                    'NA20888': {'sample_type': 'WGS', 'filter_flags': []},
+                },
+            )
Original file line number	Diff line number	Diff line change
`@@ -219,7 +219,7 @@ def relatedness_check_tsv_path(`
`219`	`219`	`)`
`220`	`220`
`221`	`221`
`222`		`-def sample_qc_tsv_path(`
	`222`	`+def sample_qc_json_path(`
`223`	`223`	`reference_genome: ReferenceGenome,`
`224`	`224`	`dataset_type: DatasetType,`
`225`	`225`	`callset_path: str,`
`@@ -231,7 +231,7 @@ def sample_qc_tsv_path(`
`231`	`231`	`dataset_type,`
`232`	`232`	`),`
`233`	`233`	`'sample_qc',`
`234`		`- f'{hashlib.sha256(callset_path.encode("utf8")).hexdigest()}.tsv',`
	`234`	`+ f'{hashlib.sha256(callset_path.encode("utf8")).hexdigest()}.json',`
`235`	`235`	`)`
`236`	`236`
`237`	`237`