neelsjain

Neel Jain neelsjain

Achievements

NEFTune NEFTune Public

Official repository of NEFTune: Noisy Embeddings Improves Instruction Finetuning

Python 398 19
BYOD BYOD Public

The Official Repository for "Bring Your Own Data! Self-Supervised Evaluation for Large Language Models"

Python 107 9
baseline-defenses baseline-defenses Public

Official Code for "Baseline Defenses for Adversarial Attacks Against Aligned Language Models"

Python 25
refusal-tokens refusal-tokens Public

This is the official repo for "Refusal Tokens: A Simple Way to Calibrate Refusals in Large Language Models"

Python 9