openproblems-bio · rcannood · Jan 9, 2025 · Jan 7, 2025 · Jan 7, 2025
diff --git a/src/api/file_common_dataset.yaml b/src/api/file_common_dataset.yaml
@@ -39,6 +39,10 @@ info:
         name: feature_name
         description: A human-readable name for the feature, usually a gene symbol.
         required: true
+      - type: string
+        name: feature_id
+        description: A database identifier for the feature, usually an ENSEMBL ID.
+        required: true
     obsm:
       - type: double
         name: X_pca

diff --git a/src/api/file_dataset.yaml b/src/api/file_dataset.yaml
@@ -36,6 +36,10 @@ info:
         name: feature_name
         description: A human-readable name for the feature, usually a gene symbol.
         required: true
+      - type: string
+        name: feature_id
+        description: A database identifier for the feature, usually an ENSEMBL ID.
+        required: true
     obsm:
       - type: double
         name: X_pca

diff --git a/src/api/file_solution.yaml b/src/api/file_solution.yaml
@@ -36,6 +36,10 @@ info:
         name: feature_name
         description: A human-readable name for the feature, usually a gene symbol.
         required: true
+      - type: string
+        name: feature_id
+        description: A database identifier for the feature, usually an ENSEMBL ID.
+        required: true
     obsm:
       - type: double
         name: X_pca

diff --git a/src/methods/geneformer/script.py b/src/methods/geneformer/script.py
@@ -33,6 +33,8 @@
         f"(dataset_organism == '{adata.uns['dataset_organism']}')"
     )
 
+# Set adata.var_names to gene IDs
+adata.var_names = adata.var["feature_id"]
 is_ensembl = all(var_name.startswith("ENSG") for var_name in adata.var_names)
 if not is_ensembl:
     raise ValueError(f"Geneformer requires adata.var_names to contain ENSEMBL gene ids")