Fixed harvesting with timestamp. Added deployment setup for all dataverse ingestion workflows.

Fjodor van Rijsselberg · Fjodor van Rijsselberg · commit 6e28304318a1 · 2024-10-23T17:19:07.000+02:00
diff --git a/scripts/deployment/prefect.yaml b/scripts/deployment/prefect.yaml
@@ -0,0 +1,193 @@
+prefect-version: 3.0.10
+name: dataverse-deployments
+
+pull:
+  - prefect.deployments.steps.set_working_directory:
+      directory: /app/scripts/
+
+definitions:
+  work_pools:
+    default_workpool: &default_workpool
+      name: default
+      work_queue_name: default
+  schedules:
+    every_day: &every_day
+      cron: "0 0 * * *"
+      timezone: "Europe/Amsterdam"
+
+deployments:
+  - name: hsn-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "hsn" ]
+    description: "Ingests metadata from IISG into the HSN subverse."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "HSN"
+
+    work_pool: *default_workpool
+
+  - name: twente-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from twente from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "TWENTE"
+
+    work_pool: *default_workpool
+
+  - name: delft-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "DELFT"
+
+    work_pool: *default_workpool
+
+  - name: avans-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "AVANS"
+
+    work_pool: *default_workpool
+
+  - name: fontys-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from fontys from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "FONTYS"
+
+    work_pool: *default_workpool
+
+  - name: groningen-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "GRONINGEN"
+
+    work_pool: *default_workpool
+
+  - name: hanze-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "HANZE"
+
+    work_pool: *default_workpool
+
+  - name: hr-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "HR"
+
+    work_pool: *default_workpool
+
+  - name: leiden-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from leiden from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "LEIDEN"
+
+    work_pool: *default_workpool
+
+  - name: maastricht-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from maastricht from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "MAASTRICHT"
+
+    work_pool: *default_workpool
+
+  - name: tilburg-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from tilburg from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "TILBURG"
+
+    work_pool: *default_workpool
+
+  - name: trimbos-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from trimbos from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "TRIMBOS"
+
+    work_pool: *default_workpool
+
+  - name: umcu-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from umcu from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "UMCU"
+
+    work_pool: *default_workpool
+
+  - name: utrecht-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from utrecht from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "UTRECHT"
+
+    work_pool: *default_workpool
+
+  - name: vu-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from vu from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "VU"
+
+    work_pool: *default_workpool
+
+  - name: dans-ingest
+    entrypoint: flows/entry_workflows/main_dataverse_ingestion.py:dataverse_ingestion_pipeline
+    tags: [ "d2d", "dataversenl" ]
+    description: "Ingests metadata from dans from dataversenl."
+    schedule: *every_day
+
+    parameters:
+      settings_dict_name: "DANS"
+
+    work_pool: *default_workpool
diff --git a/scripts/flows/entry_workflows/main_dataverse_ingestion.py b/scripts/flows/entry_workflows/main_dataverse_ingestion.py
@@ -6,7 +6,8 @@
     dataverse_metadata_ingestion
 from flows.workflow_versioning.workflow_versioner import \
     create_ingestion_workflow_versioning
-from tasks.harvest_tasks import oai_harvest_metadata
+from tasks.harvest_tasks import oai_harvest_metadata, \
+    get_most_recent_publication_date
 
 
 @flow(name="Dataverse Ingestion Pipeline")
@@ -42,31 +43,29 @@ def dataverse_ingestion_pipeline(settings_dict_name: str,
 
     minio_client = utils.create_s3_client()
 
-    if hasattr(settings_dict,
-               'OAI_SET') and settings_dict.OAI_SET and do_harvest:
-        oai_harvest_metadata(
-            settings.METADATA_PREFIX,
-            f'{settings_dict.SOURCE_DATAVERSE_URL}/oai',
-            settings_dict.BUCKET_NAME,
-            'ListIdentifiers',
-            'start_harvest',
-            settings_dict.OAI_SET,
-            settings_dict.FROM
-        )
+    if do_harvest:
+        timestamp = get_most_recent_publication_date(settings_dict)
 
-    elif do_harvest:
-        oai_harvest_metadata(
-            settings.METADATA_PREFIX,
-            f'{settings_dict.SOURCE_DATAVERSE_URL}/oai',
-            settings_dict.BUCKET_NAME,
-            'ListIdentifiers',
-            'start_harvest'
-        )
+        harvest_params = {
+            'metadata_prefix': settings.METADATA_PREFIX,
+            'oai_endpoint': f'{settings_dict.SOURCE_DATAVERSE_URL}/oai',
+            'bucket_name': settings_dict.BUCKET_NAME,
+            'verb': 'ListIdentifiers',
+            'harvester_endpoint': 'start_harvest'
+        }
+
+        if hasattr(settings_dict, 'OAI_SET') and settings_dict.OAI_SET:
+            harvest_params['oai_set'] = settings_dict.OAI_SET
+
+        if timestamp:
+            harvest_params['timestamp'] = timestamp
+
+        oai_harvest_metadata(**harvest_params)
 
     utils.identifier_list_workflow_executor(
         dataverse_metadata_ingestion,
         settings_dict,
         minio_client,
         "identifiers.json",
         version
-    )
+    )
diff --git a/scripts/tasks/base_tasks.py b/scripts/tasks/base_tasks.py
@@ -80,7 +80,7 @@ def dataverse_mapper(json_metadata, mapping_file_path, template_file_path,
 
 
 @task(timeout_seconds=300, retries=1, cache_expiration=timedelta(minutes=10))
-def dataverse_import(mapped_metadata, settings_dict, doi=None):
+def dataverse_import(mapped_metadata, settings_dict, doi):
     """ Sends a request to the import service to import the given metadata.
 
     The dataverse_information field in the data takes three fields:
@@ -96,27 +96,15 @@ def dataverse_import(mapped_metadata, settings_dict, doi=None):
     logger = get_run_logger()
 
     headers = {
-        'accept': 'application/json',
-        'Content-Type': 'application/json'
+        "X-Dataverse-key": settings_dict.DESTINATION_DATAVERSE_API_KEY,
+        "Content-type": "application/json"
     }
 
-    data = {
-        "metadata": mapped_metadata,
-        "dataverse_information": {
-            "base_url": settings_dict.DESTINATION_DATAVERSE_URL,
-            "dt_alias": settings_dict.ALIAS,
-            "api_token": settings_dict.DESTINATION_DATAVERSE_API_KEY
-        }}
+    url = f"{settings_dict.DESTINATION_DATAVERSE_URL}/api/dataverses/" \
+        f"{settings_dict.ALIAS}/datasets/:import?pid={doi}&release=no"
 
-    if doi:
-        data['doi'] = doi
+    response = requests.post(url, headers=headers, json=mapped_metadata)
 
-    url = f"{settings.DATAVERSE_IMPORTER_URL}/importer"
-    response = requests.post(
-        url,
-        headers=headers,
-        data=json.dumps(data)
-    )
     if not response.ok:
         logger.info(response.text)
         return None
@@ -125,11 +113,10 @@ def dataverse_import(mapped_metadata, settings_dict, doi=None):
 
 @task(timeout_seconds=300, retries=1, cache_expiration=timedelta(minutes=10))
 def update_publication_date(publication_date, pid, settings_dict):
-    """ Sends a request to the publication date updater to update the pub date.
+    """ Sends a request to the dataverse target to update the publication date.
 
-    The dataverse_information field in the data takes two fields:
-    base_url: The Dataverse instance URL.
-    api_token: The token specific to this DV instance to allow use of the API.
+    This task updates the publication date of a given pid in the destination
+    dataverse. It uses the experimental dataverse API to achieve this.
 
     :param publication_date: The original date of publication.
     :param pid: The DOI of the dataset in question.
@@ -139,25 +126,19 @@ def update_publication_date(publication_date, pid, settings_dict):
     logger = get_run_logger()
 
     headers = {
-        'accept': 'application/json',
-        'Content-Type': 'application/json'
-    }
+        "X-Dataverse-key": settings_dict.DESTINATION_DATAVERSE_API_KEY,
+        'Content-Type': 'application/ld+json'}
 
-    data = {
-        'pid': pid,
-        'publication_date': publication_date,
-        "dataverse_information": {
-            "base_url": settings_dict.DESTINATION_DATAVERSE_URL,
-            "api_token": settings_dict.DESTINATION_DATAVERSE_API_KEY
-        }
-    }
+    url = f'{settings_dict.DESTINATION_DATAVERSE_URL}/api/datasets/' \
+        f':persistentId/actions/:releasemigrated?persistentId={pid}'
+
+    publication_date = {
+        "schema:datePublished": f'{publication_date}',
+        "@context": {"schema": "http://schema.org/"}}
+
+    response = requests.post(url, data=json.dumps(publication_date),
+                             headers=headers)
 
-    url = f"{settings.PUBLICATION_DATA_UPDATER_URL}/publication-date-updater"
-    response = requests.post(
-        url,
-        headers=headers,
-        data=json.dumps(data)
-    )
     if not response.ok:
         logger.info(response.text)
         return None
@@ -179,23 +160,10 @@ def dataverse_metadata_fetcher(metadata_format, doi, settings_dict):
     """
     logger = get_run_logger()
 
-    headers = {
-        'accept': 'application/json',
-        'Content-Type': 'application/json'
-    }
+    url = f'{settings_dict.SOURCE_DATAVERSE_URL}/api/datasets/export?' \
+        f'exporter={metadata_format}&persistentId={doi}'
 
-    data = {
-        'doi': doi,
-        'metadata_format': metadata_format,
-        "base_url": settings_dict.SOURCE_DATAVERSE_URL,
-    }
-
-    url = f"{settings.METADATA_FETCHER_URL}/dataverse-metadata-fetcher"
-    response = requests.post(
-        url,
-        headers=headers,
-        data=json.dumps(data)
-    )
+    response = requests.get(url)
 
     if not response.ok:
         logger.info(response.text)
@@ -223,7 +191,7 @@ def dataverse_dataset_check_status(doi, dataverse_url):
     logger = get_run_logger()
 
     url = f"{dataverse_url}/api/datasets/export?exporter=dcterms&" \
-          f"persistentId={doi}"
+        f"persistentId={doi}"
     response = requests.get(url)
 
     if response.status_code in (200, 403, 404):
@@ -253,7 +221,7 @@ def delete_dataset(pid, settings_dict):
 
     logger = get_run_logger()
     url = f"{settings_dict.DESTINATION_DATAVERSE_URL}/api/datasets/" \
-          f":persistentId/destroy/?persistentId={pid}"
+        f":persistentId/destroy/?persistentId={pid}"
     response = requests.delete(url, headers=headers)
 
     if response and response.status_code == 200:
diff --git a/scripts/tasks/harvest_tasks.py b/scripts/tasks/harvest_tasks.py