Add examples

philipphager · philipphager · commit cb7964763698 · 2025-10-16T08:10:59.000-04:00
diff --git a/examples/1-ubm/main.py b/examples/1-ubm/main.py
@@ -0,0 +1,73 @@
+from pathlib import Path
+from typing import Tuple
+
+import optax
+from flax import nnx
+from flax.training.early_stopping import EarlyStopping
+from torch.utils.data import DataLoader
+
+from clax import UserBrowsingModel
+from clax.datasets import YandexDataset
+from clax.trainer import Trainer
+
+
+def get_yandex_loader(
+    dataset_dir: Path,
+    session_range: Tuple[int, int],
+):
+    dataset = YandexDataset(
+        dataset_dir=dataset_dir,
+        session_range=session_range,
+    )
+
+    return DataLoader(
+        dataset,
+        batch_size=4_096,
+        collate_fn=dataset.collate_fn,
+        num_workers=4,
+        persistent_workers=True,
+    )
+
+
+def main():
+    # Load a few sessions from the Yandex WSCD-2012 dataset:
+    dataset_dir = Path("../../clax-datasets/yandex")
+    train_loader = get_yandex_loader(dataset_dir, session_range=(0, 1_000_000))
+    val_loader = get_yandex_loader(dataset_dir, session_range=(1_000_000, 1_500_000))
+    test_loader = get_yandex_loader(dataset_dir, session_range=(1_500_000, 2_000_000))
+
+    # Instantiate a UBM:
+    rngs = nnx.Rngs(42)
+    model = UserBrowsingModel(
+        query_doc_pairs=10_000_000,
+        positions=10,
+        rngs=rngs,
+    )
+
+    # Train and evaluate a UBM:
+    trainer = Trainer(
+        optax.adamw(0.0003),
+        epochs=10,
+        early_stopping=EarlyStopping(patience=0),
+    )
+    train_df = trainer.train(model, train_loader, val_loader)
+    test_df = trainer.test_clicks(model, test_loader)
+
+    # Use the trained UBM:
+    batch = next(iter(test_loader))
+
+    print("Predict unconditional click probabilities:")
+    print(model.predict_clicks(batch))
+
+    print("Predict conditional click probabilities:")
+    print(model.predict_conditional_clicks(batch))
+
+    print("Predict query-doc relevance for ranking:")
+    print(model.predict_relevance(batch))
+
+    print("Sample clicks:")
+    print(model.sample(batch, rngs=rngs))
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/2-embedding-compression/main.py b/examples/2-embedding-compression/main.py
@@ -0,0 +1,81 @@
+from functools import partial
+from pathlib import Path
+from typing import Tuple
+
+import optax
+from flax import nnx
+from flax.training.early_stopping import EarlyStopping
+from torch.utils.data import DataLoader
+
+from clax import DynamicBayesianNetwork, ClickChainModel
+from clax.datasets import YandexDataset
+from clax.parameters import EmbeddingParameterConfig, QREmbedding
+from clax.parameters.embeddings.compositional import Combination
+from clax.trainer import Trainer
+
+
+def get_yandex_loader(
+    dataset_dir: Path,
+    session_range: Tuple[int, int],
+):
+    dataset = YandexDataset(
+        dataset_dir=dataset_dir,
+        session_range=session_range,
+    )
+
+    return DataLoader(
+        dataset,
+        batch_size=4_096,
+        collate_fn=dataset.collate_fn,
+        num_workers=4,
+        persistent_workers=True,
+    )
+
+
+def main():
+    # Scale to the entire Yandex WSCD-2012 dataset with 346_711_929 query-doc pairs
+    dataset_dir = Path("../../clax-datasets/yandex")
+    query_doc_pairs = 346_711_929
+
+    train_loader = get_yandex_loader(
+        dataset_dir,
+        session_range=(0, 100_000_000),
+    )
+    val_loader = get_yandex_loader(
+        dataset_dir,
+        session_range=(100_000_000, 120_000_000),
+    )
+    test_loader = get_yandex_loader(
+        dataset_dir,
+        session_range=(120_000_000, 145_000_000),
+    )
+
+    # Instantiate a CCM with Quotient-Remainder compression to reduce the number
+    # of allocated embeddings by a factor of 1000x and multiplicative combination:
+    rngs = nnx.Rngs(42)
+
+    model = ClickChainModel(
+        attraction=EmbeddingParameterConfig(
+            use_feature="query_doc_ids",
+            embedding_fn=partial(
+                QREmbedding,  # Use HashEmbedding for hashing-trick compression
+                compression_ratio=1000,
+            ),
+            parameters=query_doc_pairs,
+            add_baseline=True,
+        ),
+        rngs=rngs,
+    )
+
+    # Train and evaluate a UBM:
+    trainer = Trainer(
+        optax.adamw(0.0003),
+        epochs=10,
+        early_stopping=EarlyStopping(patience=0),
+    )
+    train_df = trainer.train(model, train_loader, val_loader)
+    test_df = trainer.test_clicks(model, test_loader)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/3-two-tower-model/main.py b/examples/3-two-tower-model/main.py
@@ -0,0 +1,100 @@
+from pathlib import Path
+from typing import Tuple
+
+import optax
+from flax import nnx
+from flax.training.early_stopping import EarlyStopping
+from torch.utils.data import DataLoader
+
+from clax import PositionBasedModel
+from clax.datasets import (
+    BaiduUltrFeatureClickDataset,
+    BaiduUltrFeatureAnnotationDataset,
+)
+from clax.parameters import DeepCrossParameterConfig
+from clax.trainer import Trainer
+
+
+def get_baidu_click_loader(
+    dataset_dir: Path,
+    session_range: Tuple[int, int],
+):
+    dataset = BaiduUltrFeatureClickDataset(
+        dataset_dir=dataset_dir,
+        session_range=session_range,
+    )
+
+    return DataLoader(
+        dataset,
+        batch_size=256,
+        collate_fn=dataset.collate_fn,
+        num_workers=2,
+        persistent_workers=True,
+    )
+
+
+def get_baidu_annotation_loader(
+    dataset_dir: Path,
+    session_range: Tuple[int, int],
+):
+    dataset = BaiduUltrFeatureAnnotationDataset(
+        dataset_dir=dataset_dir,
+        session_range=session_range,
+    )
+
+    return DataLoader(
+        dataset,
+        batch_size=256,
+        collate_fn=dataset.collate_fn,
+        num_workers=2,
+        persistent_workers=True,
+    )
+
+
+def main():
+    # Load sessions from a subset of the Baidu-ULTR dataset with pre-processed query-doc-features:
+    dataset_dir = Path("../../clax-datasets/baidu-ultr-uva")
+    query_doc_features = 768
+
+    train_loader = get_baidu_click_loader(
+        dataset_dir,
+        session_range=(0, 1_000_000),
+    )
+    val_loader = get_baidu_click_loader(
+        dataset_dir,
+        session_range=(1_000_000, 1_500_000),
+    )
+    test_loader = get_baidu_click_loader(
+        dataset_dir,
+        session_range=(1_500_000, 2_000_000),
+    )
+    annotation_loader = get_baidu_annotation_loader(
+        dataset_dir,
+        session_range=(0, 400_000),
+    )
+
+    # Instantiate a PBM with a deep cross v2 network for document attraction,
+    # note might be slow on CPU:
+    rngs = nnx.Rngs(42)
+
+    model = PositionBasedModel(
+        attraction=DeepCrossParameterConfig(
+            use_feature="query_doc_features",
+            features=query_doc_features,
+        ),
+        positions=10,
+        rngs=rngs,
+    )
+
+    trainer = Trainer(
+        optax.adamw(0.0003),
+        epochs=3,
+        early_stopping=EarlyStopping(patience=0),
+    )
+    train_df = trainer.train(model, train_loader, val_loader)
+    click_df = trainer.test_clicks(model, test_loader)
+    ranking_df = trainer.test_ranking(model, annotation_loader)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/4-custom-flax-model/main.py b/examples/4-custom-flax-model/main.py
@@ -0,0 +1,127 @@
+from pathlib import Path
+from typing import Tuple, Dict
+
+import optax
+from flax import nnx
+from flax.training.early_stopping import EarlyStopping
+from jax import Array
+from torch.utils.data import DataLoader
+
+from clax import PositionBasedModel
+from clax.datasets import (
+    BaiduUltrFeatureClickDataset,
+    BaiduUltrFeatureAnnotationDataset,
+)
+from clax.trainer import Trainer
+
+
+def get_baidu_click_loader(
+    dataset_dir: Path,
+    session_range: Tuple[int, int],
+):
+    dataset = BaiduUltrFeatureClickDataset(
+        dataset_dir=dataset_dir,
+        session_range=session_range,
+    )
+
+    return DataLoader(
+        dataset,
+        batch_size=256,
+        collate_fn=dataset.collate_fn,
+        num_workers=2,
+        persistent_workers=True,
+    )
+
+
+def get_baidu_annotation_loader(
+    dataset_dir: Path,
+    session_range: Tuple[int, int],
+):
+    dataset = BaiduUltrFeatureAnnotationDataset(
+        dataset_dir=dataset_dir,
+        session_range=session_range,
+    )
+
+    return DataLoader(
+        dataset,
+        batch_size=256,
+        collate_fn=dataset.collate_fn,
+        num_workers=2,
+        persistent_workers=True,
+    )
+
+
+class CustomAttraction(nnx.Module):
+    """
+    Example of a custom flax module with attention,
+    every module needs to specify how to compute a logit,
+    log probability and probability for a given batch.
+
+    In the simplest case, the logit layer can be re-used for probability
+    and log probability computation.
+    """
+
+    def __init__(self, query_doc_features, rngs):
+        super().__init__()
+        self.attention = nnx.MultiHeadAttention(
+            num_heads=1,
+            in_features=query_doc_features,
+            qkv_features=8,
+            decode=False,
+            rngs=rngs,
+        )
+        self.projection = nnx.Linear(query_doc_features, 1, rngs=rngs)
+
+    def logit(self, batch: Dict) -> Array:
+        return self.projection(self.attention(batch["query_doc_features"])).squeeze()
+
+    def prob(self, batch: Dict) -> Array:
+        return nnx.sigmoid(self.logit(batch))
+
+    def log_prob(self, batch: Dict) -> Array:
+        return nnx.log_sigmoid(self.logit(batch))
+
+
+def main():
+    # Load sessions from a subset of the Baidu-ULTR dataset with pre-processed query-doc-features:
+    dataset_dir = Path("../../clax-datasets/baidu-ultr-uva")
+    query_doc_features = 768
+
+    train_loader = get_baidu_click_loader(
+        dataset_dir,
+        session_range=(0, 100_000),
+    )
+    val_loader = get_baidu_click_loader(
+        dataset_dir,
+        session_range=(1_000_000, 1_500_000),
+    )
+    test_loader = get_baidu_click_loader(
+        dataset_dir,
+        session_range=(1_500_000, 2_000_000),
+    )
+    annotation_loader = get_baidu_annotation_loader(
+        dataset_dir,
+        session_range=(0, 400_000),
+    )
+
+    # Instantiate a PBM with a custom module for document attraction,
+    # note might be slow on CPU:
+    rngs = nnx.Rngs(42)
+
+    model = PositionBasedModel(
+        attraction=CustomAttraction(query_doc_features, rngs),
+        positions=10,
+        rngs=rngs,
+    )
+    trainer = Trainer(
+        optax.adamw(0.0003),
+        epochs=3,
+        early_stopping=EarlyStopping(patience=0),
+    )
+    train_df = trainer.train(model, train_loader, val_loader)
+    click_df = trainer.test_clicks(model, test_loader)
+    ranking_df = trainer.test_ranking(model, annotation_loader)
+
+
+if __name__ == "__main__":
+    main()
diff --git a/examples/5-mixture-model/main.py b/examples/5-mixture-model/main.py