pytorch
diff --git a/‎docs/source/reference/data.rst
Lines changed: 3 additions & 0 deletions b/‎docs/source/reference/data.rst
Lines changed: 3 additions & 0 deletions
diff --git a/‎examples/rlhf/data/__init__.py
Lines changed: 1 addition & 1 deletion b/‎examples/rlhf/data/__init__.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/rlhf/models/reward.py
Lines changed: 1 addition & 1 deletion b/‎examples/rlhf/models/reward.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/rlhf/train.py
Lines changed: 2 additions & 2 deletions b/‎examples/rlhf/train.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/rlhf/train_reward.py
Lines changed: 2 additions & 2 deletions b/‎examples/rlhf/train_reward.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎examples/rlhf/train_rlhf.py
Lines changed: 1 addition & 1 deletion b/‎examples/rlhf/train_rlhf.py
Lines changed: 1 addition & 1 deletion
diff --git a/‎examples/rlhf/utils.py
Lines changed: 2 additions & 2 deletions b/‎examples/rlhf/utils.py
Lines changed: 2 additions & 2 deletions
diff --git a/‎test/assets/generate.py
Lines changed: 8 additions & 4 deletions b/‎test/assets/generate.py
Lines changed: 8 additions & 4 deletions
diff --git a/‎test/assets/tldr_batch.zip
2 Bytes b/‎test/assets/tldr_batch.zip
2 Bytes
diff --git a/‎test/test_actors.py
Lines changed: 1 addition & 1 deletion b/‎test/test_actors.py
Lines changed: 1 addition & 1 deletion
@@ -1133,6 +1133,9 @@ efficient sampling.
     get_dataloader
     ConstantKLController
     AdaptiveKLController
+    LLMData
+    LLMInput
+    LLMOutput
 
 
 Utils
 
@@ -1,3 +1,3 @@
-from torchrl.data.rlhf.prompt import get_prompt_dataloader_tldr
+from torchrl.data.llm.prompt import get_prompt_dataloader_tldr
 
 __all__ = ["get_prompt_dataloader_tldr"]
@@ -8,7 +8,7 @@
 from tensordict.nn import TensorDictModule
 from torchrl._utils import logger as torchrl_logger
 
-from torchrl.modules.models.rlhf import GPT2RewardModel
+from torchrl.modules.models.llm import GPT2RewardModel
 
 
 def init_reward_model(
 
@@ -17,8 +17,8 @@
 from torch.optim.lr_scheduler import CosineAnnealingLR
 from torchrl._utils import logger as torchrl_logger
 
-from torchrl.data.rlhf.dataset import get_dataloader
-from torchrl.data.rlhf.prompt import PromptData
+from torchrl.data.llm.dataset import get_dataloader
+from torchrl.data.llm.prompt import PromptData
 from utils import get_file_logger, resolve_name_or_path, setup
 
 
 
@@ -9,8 +9,8 @@
 from models.reward import init_reward_model
 from torch.optim.lr_scheduler import CosineAnnealingLR
 from torchrl._utils import logger as torchrl_logger
-from torchrl.data.rlhf.dataset import get_dataloader
-from torchrl.data.rlhf.reward import PairwiseDataset
+from torchrl.data.llm.dataset import get_dataloader
+from torchrl.data.llm.reward import PairwiseDataset
 from utils import get_file_logger, resolve_name_or_path, setup
 
 
 
@@ -6,7 +6,7 @@
 import hydra
 import torch
 from models.actor_critic import init_actor_critic
-from torchrl.data.rlhf.utils import AdaptiveKLController, RolloutFromModel
+from torchrl.data.llm.utils import AdaptiveKLController, RolloutFromModel
 
 from torchrl.record.loggers import get_logger
 
 
@@ -22,9 +22,9 @@
     TensorDictReplayBuffer,
     TensorStorage,
 )
+from torchrl.data.llm.dataset import get_dataloader
+from torchrl.data.llm.prompt import PromptData
 from torchrl.data.replay_buffers import SamplerWithoutReplacement
-from torchrl.data.rlhf.dataset import get_dataloader
-from torchrl.data.rlhf.prompt import PromptData
 from torchrl.objectives import ClipPPOLoss
 from torchrl.objectives.value import GAE
 
 
@@ -5,6 +5,7 @@
 
 """Script used to generate the mini datasets."""
 import multiprocessing as mp
+import pathlib
 
 try:
     mp.set_start_method("spawn")
@@ -14,8 +15,8 @@
 
 from datasets import Dataset, DatasetDict, load_dataset
 
-from torchrl.data.rlhf.dataset import get_dataloader
-from torchrl.data.rlhf.prompt import PromptData
+from torchrl.data.llm.dataset import get_dataloader
+from torchrl.data.llm.prompt import PromptData
 
 
 def generate_small_dataset(comparison=True):
@@ -42,7 +43,7 @@ def get_minibatch():
             batch_size=16,
             block_size=33,
             tensorclass_type=PromptData,
-            dataset_name="../datasets_mini/openai_summarize_tldr",
+            dataset_name=f"{pathlib.Path(__file__).parent}/../datasets_mini/openai_summarize_tldr",
             device="cpu",
             num_workers=2,
             infinite=False,
@@ -52,9 +53,12 @@ def get_minibatch():
             root_dir=tmpdir,
         )
         for data in dl:
-            data = data.clone().memmap_("test/datasets_mini/tldr_batch/")
+            data = data.clone().memmap_(
+                f"{pathlib.Path(__file__).parent}/../datasets_mini/tldr_batch/"
+            )
             break
 
 
 if __name__ == "__main__":
+    generate_small_dataset(False)
     get_minibatch()
@@ -14,7 +14,7 @@
 
 from torch import distributions as dist, nn
 from torchrl.data import Binary, Bounded, Categorical, Composite, MultiOneHot, OneHot
-from torchrl.data.rlhf.dataset import _has_transformers
+from torchrl.data.llm.dataset import _has_transformers
 from torchrl.modules import MLP, SafeModule, TanhDelta, TanhNormal
 from torchrl.modules.tensordict_module.actors import (
     _process_action_space_spec,
Original file line number	Diff line number	Diff line change
`@@ -1,3 +1,3 @@`
`1`		`-from torchrl.data.rlhf.prompt import get_prompt_dataloader_tldr`
	`1`	`+from torchrl.data.llm.prompt import get_prompt_dataloader_tldr`
`2`	`2`
`3`	`3`	`__all__ = ["get_prompt_dataloader_tldr"]`