Merge pull request #137 from scaleapi/da-fixes

ardila · web-flow · commit db42274ef76d · 2021-10-19T08:26:10.000-07:00
Various fixes
diff --git a/nucleus/__init__.py b/nucleus/__init__.py
@@ -324,7 +324,7 @@ def populate_dataset(
         self,
         dataset_id: str,
         dataset_items: List[DatasetItem],
-        batch_size: int = 30,
+        batch_size: int = 20,
         update: bool = False,
     ):
         """
@@ -495,6 +495,9 @@ async def _make_files_request(
         files,
         route: str,
         session: aiohttp.ClientSession,
+        retry_attempt=0,
+        max_retries=3,
+        sleep_intervals=(1, 3, 9),
     ):
         """
         Makes an async post request with files to a Nucleus endpoint.
@@ -519,6 +522,7 @@ async def _make_files_request(
             )
 
         for sleep_time in RetryStrategy.sleep_times + [-1]:
+
             async with session.post(
                 endpoint,
                 data=form,
@@ -542,15 +546,27 @@ async def _make_files_request(
                     continue
 
                 if not response.ok:
-                    self.handle_bad_response(
-                        endpoint,
-                        session.post,
-                        aiohttp_response=(
-                            response.status,
-                            response.reason,
-                            data,
-                        ),
-                    )
+                    if retry_attempt < max_retries:
+                        time.sleep(sleep_intervals[retry_attempt])
+                        retry_attempt += 1
+                        return self._make_files_request(
+                            files,
+                            route,
+                            session,
+                            retry_attempt,
+                            max_retries,
+                            sleep_intervals,
+                        )
+                    else:
+                        self.handle_bad_response(
+                            endpoint,
+                            session.post,
+                            aiohttp_response=(
+                                response.status,
+                                response.reason,
+                                data,
+                            ),
+                        )
 
                 return data
 
diff --git a/nucleus/dataset.py b/nucleus/dataset.py
@@ -261,6 +261,9 @@ def append(
             'ignored_items': int,
         }
         """
+        assert (
+            batch_size is None or batch_size < 30
+        ), "Please specify a batch size smaller than 30 to avoid timeouts."
         dataset_items = [
             item for item in items if isinstance(item, DatasetItem)
         ]
@@ -270,6 +273,9 @@ def append(
                 "You must append either DatasetItems or Scenes to the dataset."
             )
         if scenes:
+            assert (
+                asynchronous
+            ), "In order to avoid timeouts, you must set asynchronous=True when uploading scenes."
             return self.append_scenes(scenes, update, asynchronous)
 
         check_for_duplicate_reference_ids(dataset_items)
diff --git a/tests/test_scene.py b/tests/test_scene.py
@@ -252,6 +252,7 @@ def test_scene_add_frame():
     }
 
 
+@pytest.mark.skip("Deactivated sync upload for scenes")
 def test_scene_upload_sync(dataset):
     payload = TEST_LIDAR_SCENES
     scenes = [
@@ -272,6 +273,7 @@ def test_scene_upload_sync(dataset):
     assert response["new_scenes"] == len(scenes)
 
 
+@pytest.mark.skip("Deactivated sync upload for scenes")
 @pytest.mark.integration
 def test_scene_and_cuboid_upload_sync(dataset):
     payload = TEST_LIDAR_SCENES

Original file line number	Diff line number	Diff line change
`@@ -261,6 +261,9 @@ def append(`
`261`	`261`	`'ignored_items': int,`
`262`	`262`	`}`
`263`	`263`	`"""`
	`264`	`+ assert (`
	`265`	`+ batch_size is None or batch_size < 30`
	`266`	`+ ), "Please specify a batch size smaller than 30 to avoid timeouts."`
`264`	`267`	`dataset_items = [`
`265`	`268`	`item for item in items if isinstance(item, DatasetItem)`
`266`	`269`	`]`
`@@ -270,6 +273,9 @@ def append(`
`270`	`273`	`"You must append either DatasetItems or Scenes to the dataset."`
`271`	`274`	`)`
`272`	`275`	`if scenes:`
	`276`	`+ assert (`
	`277`	`+ asynchronous`
	`278`	`+ ), "In order to avoid timeouts, you must set asynchronous=True when uploading scenes."`
`273`	`279`	`return self.append_scenes(scenes, update, asynchronous)`
`274`	`280`
`275`	`281`	`check_for_duplicate_reference_ids(dataset_items)`