Remove torch._running_with_deploy() from fbcode, Fix exception handling for torch.ops.load_libraries (pytorch#3213)

nipung90 · facebook-github-bot · commit 64bfa3054dcb · 2025-07-18T14:16:50.000-07:00
Summary:

Rollback Plan:

Differential Revision: D78583233
diff --git a/torchrec/distributed/comm_ops.py b/torchrec/distributed/comm_ops.py
diff --git a/torchrec/distributed/dist_data.py b/torchrec/distributed/dist_data.py
@@ -38,8 +38,8 @@
     torch.ops.load_library(
         "//deeplearning/fbgemm/fbgemm_gpu:merge_pooled_embeddings_cpu"
     )
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 # OSS
 try:
diff --git a/torchrec/distributed/embedding.py b/torchrec/distributed/embedding.py
@@ -105,8 +105,8 @@
 try:
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops")
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops_cpu")
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 
 logger: logging.Logger = logging.getLogger(__name__)
diff --git a/torchrec/distributed/embeddingbag.py b/torchrec/distributed/embeddingbag.py
@@ -113,8 +113,8 @@
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops")
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops_cpu")
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu/codegen:index_select_ops")
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 
 def _pin_and_move(tensor: torch.Tensor, device: torch.device) -> torch.Tensor:
diff --git a/torchrec/distributed/model_parallel.py b/torchrec/distributed/model_parallel.py
@@ -58,8 +58,8 @@
 try:
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops")
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops_cpu")
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 
 _DDP_STATE_DICT_PREFIX = "module."
diff --git a/torchrec/distributed/quant_embedding.py b/torchrec/distributed/quant_embedding.py
@@ -100,8 +100,8 @@
 try:
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops")
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops_cpu")
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 
 logger: logging.Logger = logging.getLogger(__name__)
diff --git a/torchrec/distributed/train_pipeline/tracing.py b/torchrec/distributed/train_pipeline/tracing.py
@@ -13,12 +13,9 @@
 
 import torch
 
-if not torch._running_with_deploy():
-    from torch.distributed._composable.fsdp.fully_shard import FSDPModule as FSDP2
-else:
 
-    class FSDP2:
-        pass
+class FSDP2:
+    pass
 
 
 from torch.distributed.fsdp import FullyShardedDataParallel as FSDP
diff --git a/torchrec/distributed/train_pipeline/train_pipelines.py b/torchrec/distributed/train_pipeline/train_pipelines.py
@@ -80,8 +80,7 @@
 except ImportError:
     logger.warning("torchrec_use_sync_collectives is not available")
 
-if not torch._running_with_deploy():
-    torch.ops.import_module("fbgemm_gpu.sparse_ops")
+torch.ops.import_module("fbgemm_gpu.sparse_ops")
 
 
 # Note: doesn't make much sense but better than throwing.
diff --git a/torchrec/modules/itep_modules.py b/torchrec/modules/itep_modules.py
@@ -29,7 +29,7 @@
     torch.ops.load_library(
         "//deeplearning/fbgemm/fbgemm_gpu:intraining_embedding_pruning_gpu"
     )
-except OSError:
+except (OSError, RuntimeError):
     pass
 
 logger: logging.Logger = logging.getLogger(__name__)
diff --git a/torchrec/quant/embedding_modules.py b/torchrec/quant/embedding_modules.py
@@ -79,8 +79,8 @@
 try:
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops")
     torch.ops.load_library("//deeplearning/fbgemm/fbgemm_gpu:sparse_ops_cpu")
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 # OSS
 try:
diff --git a/torchrec/sparse/jagged_tensor.py b/torchrec/sparse/jagged_tensor.py
@@ -44,8 +44,8 @@
     torch.ops.load_library(
         "//deeplearning/fbgemm/fbgemm_gpu:permute_multi_embedding_ops_gpu"
     )
-except OSError:
-    pass
+except (OSError, RuntimeError):
+    from fbgemm_gpu import sparse_ops  # noqa: F401, E402
 
 
 logger: logging.Logger = logging.getLogger()

Original file line number	Diff line number	Diff line change
`@@ -29,7 +29,7 @@`
`29`	`29`	`torch.ops.load_library(`
`30`	`30`	`"//deeplearning/fbgemm/fbgemm_gpu:intraining_embedding_pruning_gpu"`
`31`	`31`	`)`
`32`		`-except OSError:`
	`32`	`+except (OSError, RuntimeError):`
`33`	`33`	`pass`
`34`	`34`
`35`	`35`	`logger: logging.Logger = logging.getLogger(__name__)`