CADET Embeddings

We present CADET, a framework for fine-tuning embedding models for retrieval on specific corpora using diverse synthetic queries and cross-encoder listwise distillation.

We will continue to refine this codebase. For questions or support, please reach out to mtamber@uwaterloo.ca.

Overview

Directories

encoding/
Contains scripts to encode corpora and evaluate models.
query_generation/
Includes scripts for generating synthetic queries.
reranker/
Code for reranking.
training_scripts/
Scripts for fine-tuning models.

If you use CADET, please cite the following paper:

  @article{tamber2025teaching,
    title={Teaching Dense Retrieval Models to Specialize with Listwise Distillation and LLM Data Augmentation},
    author={Tamber, Manveer Singh and Kazi, Suleman and Sourabh, Vivek and Lin, Jimmy},
    journal={arXiv:2502.19712},
    year={2025}
  }

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
encoding		encoding
query_generation		query_generation
reranker		reranker
training_scripts		training_scripts
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CADET Embeddings

Overview

Directories

About

Uh oh!

Releases

Packages

Languages

manveertamber/enhancing_domain_adaptation

Folders and files

Latest commit

History

Repository files navigation

CADET Embeddings

Overview

Directories

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages