Add project validation input

Val Brodsky · Val Brodsky · commit f26397c6409b · 2024-09-25T14:25:15.000-07:00
diff --git a/libs/labelbox/src/labelbox/client.py b/libs/labelbox/src/labelbox/client.py
@@ -23,6 +23,7 @@
 from labelbox.orm.db_object import DbObject
 from labelbox.orm.model import Entity, Field
 from labelbox.pagination import PaginatedCollection
+from labelbox.project_validation import _CoreProjectInput
 from labelbox.schema import role
 from labelbox.schema.catalog import Catalog
 from labelbox.schema.data_row import DataRow
@@ -632,7 +633,8 @@ def create_project(self, **kwargs) -> Project:
         kwargs.pop("append_to_existing_dataset", None)
         kwargs.pop("data_row_count", None)
         kwargs.pop("editor_task_type", None)
-        return self._create_project(**kwargs)
+        input = _CoreProjectInput(**kwargs)
+        return self._create_project(input)
 
     @overload
     def create_model_evaluation_project(
@@ -820,103 +822,10 @@ def create_response_creation_project(self, **kwargs) -> Project:
 
         return self._create_project(**kwargs)
 
-    def _create_project(self, **kwargs) -> Project:
-        auto_audit_percentage = kwargs.get("auto_audit_percentage")
-        auto_audit_number_of_labels = kwargs.get("auto_audit_number_of_labels")
-        if (
-            auto_audit_percentage is not None
-            or auto_audit_number_of_labels is not None
-        ):
-            raise ValueError(
-                "quality_modes must be set instead of auto_audit_percentage or auto_audit_number_of_labels."
-            )
-
-        name = kwargs.get("name")
-        if name is None or not name.strip():
-            raise ValueError("project name must be a valid string.")
-
-        queue_mode = kwargs.get("queue_mode")
-        if queue_mode is QueueMode.Dataset:
-            raise ValueError(
-                "Dataset queue mode is deprecated. Please prefer Batch queue mode."
-            )
-        elif queue_mode is QueueMode.Batch:
-            logger.warning(
-                "Passing a queue mode of batch is redundant and will soon no longer be supported."
-            )
-
-        media_type = kwargs.get("media_type")
-        if media_type and MediaType.is_supported(media_type):
-            media_type_value = media_type.value
-        elif media_type:
-            raise TypeError(
-                f"{media_type} is not a valid media type. Use"
-                f" any of {MediaType.get_supported_members()}"
-                " from MediaType. Example: MediaType.Image."
-            )
-        else:
-            logger.warning(
-                "Creating a project without specifying media_type"
-                " through this method will soon no longer be supported."
-            )
-            media_type_value = None
-
-        quality_modes = kwargs.get("quality_modes")
-        quality_mode = kwargs.get("quality_mode")
-        if quality_mode:
-            logger.warning(
-                "Passing quality_mode is deprecated and will soon no longer be supported. Use quality_modes instead."
-            )
-
-        if quality_modes and quality_mode:
-            raise ValueError(
-                "Cannot use both quality_modes and quality_mode at the same time. Use one or the other."
-            )
-
-        if not quality_modes and not quality_mode:
-            logger.info("Defaulting quality modes to Benchmark and Consensus.")
-
-        data = kwargs
-        data.pop("quality_modes", None)
-        data.pop("quality_mode", None)
-
-        # check if quality_modes is a set, if not, convert to set
-        quality_modes_set = quality_modes
-        if quality_modes and not isinstance(quality_modes, set):
-            quality_modes_set = set(quality_modes)
-        if quality_mode:
-            quality_modes_set = {quality_mode}
-
-        if (
-            quality_modes_set is None
-            or len(quality_modes_set) == 0
-            or quality_modes_set
-            == {QualityMode.Benchmark, QualityMode.Consensus}
-        ):
-            data["auto_audit_number_of_labels"] = (
-                CONSENSUS_AUTO_AUDIT_NUMBER_OF_LABELS
-            )
-            data["auto_audit_percentage"] = CONSENSUS_AUTO_AUDIT_PERCENTAGE
-            data["is_benchmark_enabled"] = True
-            data["is_consensus_enabled"] = True
-        elif quality_modes_set == {QualityMode.Benchmark}:
-            data["auto_audit_number_of_labels"] = (
-                BENCHMARK_AUTO_AUDIT_NUMBER_OF_LABELS
-            )
-            data["auto_audit_percentage"] = BENCHMARK_AUTO_AUDIT_PERCENTAGE
-            data["is_benchmark_enabled"] = True
-        elif quality_modes_set == {QualityMode.Consensus}:
-            data["auto_audit_number_of_labels"] = (
-                CONSENSUS_AUTO_AUDIT_NUMBER_OF_LABELS
-            )
-            data["auto_audit_percentage"] = CONSENSUS_AUTO_AUDIT_PERCENTAGE
-            data["is_consensus_enabled"] = True
-        else:
-            raise ValueError(
-                f"{quality_modes_set} is not a valid quality modes set. Allowed values are [Benchmark, Consensus]"
-            )
+    def _create_project(self, input: _CoreProjectInput) -> Project:
+        media_type_value = input.media_type.value
 
-        params = {**data}
+        params = input.model_dump(exclude_none=True)
         if media_type_value:
             params["media_type"] = media_type_value
 
diff --git a/libs/labelbox/src/labelbox/project_validation.py b/libs/labelbox/src/labelbox/project_validation.py
@@ -0,0 +1,82 @@
+from typing import Optional, Set
+
+from pydantic import BaseModel, ConfigDict, Field, model_validator
+
+from labelbox.schema.media_type import MediaType
+from labelbox.schema.quality_mode import (
+    BENCHMARK_AUTO_AUDIT_NUMBER_OF_LABELS,
+    BENCHMARK_AUTO_AUDIT_PERCENTAGE,
+    CONSENSUS_AUTO_AUDIT_NUMBER_OF_LABELS,
+    CONSENSUS_AUTO_AUDIT_PERCENTAGE,
+    QualityMode,
+)
+from labelbox.schema.queue_mode import QueueMode
+
+
+class _CoreProjectInput(BaseModel):
+    name: str
+    description: Optional[str] = None
+    media_type: MediaType
+    queue_mode: QueueMode = Field(default=QueueMode.Batch, frozen=True)
+    auto_audit_percentage: Optional[float] = None
+    auto_audit_number_of_labels: Optional[int] = None
+    quality_modes: Optional[Set[QualityMode]] = Field(
+        default={QualityMode.Benchmark, QualityMode.Consensus}, exclude=True
+    )
+    is_benchmark_enabled: Optional[bool] = None
+    is_consensus_enabled: Optional[bool] = None
+    dataset_name_or_id: Optional[str] = None
+    append_to_existing_dataset: Optional[bool] = None
+
+    model_config = ConfigDict(extra="forbid")
+
+    @model_validator(mode="after")
+    def validate_fields(self):
+        if (
+            self.auto_audit_percentage is not None
+            and self.auto_audit_number_of_labels is not None
+        ):
+            raise ValueError(
+                "quality_modes must be set instead of auto_audit_percentage or auto_audit_number_of_labels."
+            )
+
+        if not self.name.strip():
+            raise ValueError("project name must be a valid string.")
+
+        if self.quality_modes == {
+            QualityMode.Benchmark,
+            QualityMode.Consensus,
+        }:
+            self._set_quality_mode_attributes(
+                CONSENSUS_AUTO_AUDIT_NUMBER_OF_LABELS,
+                CONSENSUS_AUTO_AUDIT_PERCENTAGE,
+                is_benchmark_enabled=True,
+                is_consensus_enabled=True,
+            )
+        elif self.quality_modes == {QualityMode.Benchmark}:
+            self._set_quality_mode_attributes(
+                BENCHMARK_AUTO_AUDIT_NUMBER_OF_LABELS,
+                BENCHMARK_AUTO_AUDIT_PERCENTAGE,
+                is_benchmark_enabled=True,
+            )
+        elif self.quality_modes == {QualityMode.Consensus}:
+            self._set_quality_mode_attributes(
+                data,
+                CONSENSUS_AUTO_AUDIT_NUMBER_OF_LABELS,
+                CONSENSUS_AUTO_AUDIT_PERCENTAGE,
+                is_consensus_enabled=True,
+            )
+
+        return self
+
+    def _set_quality_mode_attributes(
+        self,
+        number_of_labels,
+        percentage,
+        is_benchmark_enabled=False,
+        is_consensus_enabled=False,
+    ):
+        self.auto_audit_number_of_labels = number_of_labels
+        self.auto_audit_percentage = percentage
+        self.is_benchmark_enabled = is_benchmark_enabled
+        self.is_consensus_enabled = is_consensus_enabled
diff --git a/libs/labelbox/tests/integration/test_project.py b/libs/labelbox/tests/integration/test_project.py
@@ -7,6 +7,7 @@
 from lbox.exceptions import InvalidQueryError
 
 from labelbox import Dataset, LabelingFrontend, Project
+from labelbox.schema import media_type
 from labelbox.schema.media_type import MediaType
 from labelbox.schema.quality_mode import QualityMode
 from labelbox.schema.queue_mode import QueueMode
@@ -51,7 +52,7 @@ def data_for_project_test(client, rand_gen):
     def _create_project(name: str = None):
         if name is None:
             name = rand_gen(str)
-        project = client.create_project(name=name)
+        project = client.create_project(name=name, media_type=MediaType.Image)
         projects.append(project)
         return project
 
@@ -140,10 +141,6 @@ def test_extend_reservations(project):
         project.extend_reservations("InvalidQueueType")
 
 
-@pytest.mark.skipif(
-    condition=os.environ["LABELBOX_TEST_ENVIRON"] == "onprem",
-    reason="new mutation does not work for onprem",
-)
 def test_attach_instructions(client, project):
     with pytest.raises(ValueError) as execinfo:
         project.upsert_instructions("tests/integration/media/sample_pdf.pdf")
@@ -248,9 +245,11 @@ def test_media_type(client, project: Project, rand_gen):
     assert isinstance(project.media_type, MediaType)
 
     # Update test
-    project = client.create_project(name=rand_gen(str))
-    project.update(media_type=MediaType.Image)
-    assert project.media_type == MediaType.Image
+    project = client.create_project(
+        name=rand_gen(str), media_type=MediaType.Image
+    )
+    project.update(media_type=MediaType.Text)
+    assert project.media_type == MediaType.Text
     project.delete()
 
     for media_type in MediaType.get_supported_members():
@@ -271,27 +270,33 @@ def test_media_type(client, project: Project, rand_gen):
 
 def test_queue_mode(client, rand_gen):
     project = client.create_project(
-        name=rand_gen(str)
+        name=rand_gen(str),
+        media_type=MediaType.Image,
     )  # defaults to benchmark and consensus
     assert project.auto_audit_number_of_labels == 3
     assert project.auto_audit_percentage == 0
 
     project = client.create_project(
-        name=rand_gen(str), quality_modes=[QualityMode.Benchmark]
+        name=rand_gen(str),
+        quality_modes=[QualityMode.Benchmark],
+        media_type=MediaType.Image,
     )
     assert project.auto_audit_number_of_labels == 1
     assert project.auto_audit_percentage == 1
 
     project = client.create_project(
         name=rand_gen(str),
         quality_modes=[QualityMode.Benchmark, QualityMode.Consensus],
+        media_type=MediaType.Image,
     )
     assert project.auto_audit_number_of_labels == 3
     assert project.auto_audit_percentage == 0
 
 
 def test_label_count(client, configured_batch_project_with_label):
-    project = client.create_project(name="test label count")
+    project = client.create_project(
+        name="test label count", media_type=MediaType.Image
+    )
     assert project.get_label_count() == 0
     project.delete()