Opt-Out: Investigating Entity-Level Unlearning for Large Language Models via Optimal Transport

Source code for our ACL 2025 paper Opt-Out: Investigating Entity-Level Unlearning for Large Language Models via Optimal Transport.

This codebase implements various unlearning methods to make language models "forget" specific entities while preserving their general capabilities.

🔧 Installation

To install requirements:

conda create -n optout python=3.12.9
conda activate optout
pip install -r requirements.txt

🤗 Data

We provide the ELUDe (Entity-Level Unlearning Dataset) on Hugging Face: https://huggingface.co/datasets/6rightjade/ELUDe

ELUDe is a comprehensive machine unlearning dataset focused on the removal of entire entities from large language models (LLMs). The dataset includes:

20 real-world target entities (the entities listed below)
144 unique neighboring entities from Wikipedia

📊 Available Entities

The codebase supports unlearning for 20 different entities:

Donald_Trump
Elizabeth_II
Barack_Obama
Cristiano_Ronaldo
Michael_Jackson
Elon_Musk
Lady_Gaga
Adolf_Hitler
Eminem
Lionel_Messi
Justin_Bieber
Freddie_Mercury
Kim_Kardashian
Johnny_Depp
Steve_Jobs
Dwayne_Johnson
Michael_Jordan
Taylor_Swift
Stephen_Hawking
Kanye_West

🧠 Unlearning Methods

Core Methods

original - The original performance of the model
icu - In-Context Unlearning: Prompting baseline (Guardrail)
ga - Gradient Ascent: Uses gradient ascent for unlearning
dpo - Direct Preference Optimization: Uses DPO for unlearning
npo - Negative Preference Optimization: Uses NPO for unlearning
idk - I Don't Know: Makes the model respond with "I don't know"

Data Augmentation Options

You can combine core methods with the following modifiers (except original and icu):

+rt - Retain Data: Includes neighboring entity data to preserve nearby knowledge
+wd - World Data: Uses Alpaca GPT-4 data for maintaining general knowledge (we use Alpaca GPT-4 data from here)
+ot - Optimal Transport: Adds Wasserstein regularization for better unlearning

Example Method Combinations

npo+rt+wd+ot - NPO with retain data, world data, and optimal transport (Opt-Out)
dpo+rt+wd - DPO with retain and world data
ga+rt - Gradient ascent with retain data only
idk+wd - IDK method with world data only

🚀 Usage

Training

Use the training script to fine-tune models for entity unlearning:

bash scripts/train.sh

Evaluation

Run evaluation on trained models:

bash scripts/eval.sh

📁 Directory Structure

Opt-Out/
├── run.py              # Main training/evaluation script
├── trainer.py          # Custom trainer implementation
├── model.py            # Model loading utilities  
├── dataset.py          # Data loading and processing
├── evaluator.py        # Evaluation logic
├── scripts/            # Execution scripts
│   ├── train.sh        # Training script
│   └── eval.sh         # Evaluation script
├── data/               # External data

📚 Citation

If you use this codebase, please cite our paper:

@article{choi2025optout,
  title={Opt-Out: Investigating Entity-Level Unlearning for Large Language Models via Optimal Transport},
  author={Choi, Minseok and Rim, Daniel and Lee, Dohyun and Choo, Jaegul},
  journal={arXiv preprint arXiv:2406.12329},
  year={2025}
}

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

Opt-Out: Investigating Entity-Level Unlearning for Large Language Models via Optimal Transport

🔧 Installation

🤗 Data

📊 Available Entities

🧠 Unlearning Methods

Core Methods

Data Augmentation Options

Example Method Combinations

🚀 Usage

Training

Evaluation

📁 Directory Structure

📚 Citation

About

Uh oh!

Releases

Packages

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data		data
scripts		scripts
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
dataset.py		dataset.py
evaluator.py		evaluator.py
model.py		model.py
requirements.txt		requirements.txt
run.py		run.py
trainer.py		trainer.py

License

brightjade/Opt-Out

Folders and files

Latest commit

History

Repository files navigation

Opt-Out: Investigating Entity-Level Unlearning for Large Language Models via Optimal Transport

🔧 Installation

🤗 Data

📊 Available Entities

🧠 Unlearning Methods

Core Methods

Data Augmentation Options

Example Method Combinations

🚀 Usage

Training

Evaluation

📁 Directory Structure

📚 Citation

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages