LLM-behavior-interpretation

A visualization framework for interpreting alignment behaviors through token-generation processes in Large Language Model for bias and toxicity

Description:

Developed a model interpretation pipeline inspired by the Decoding by Contrasting Layers (DoLA) strategy. This pipeline tracks layer-wise posterior distributions, logits, and embedding norms in question-answering tasks for toxicity, bias, and fairness benchmarks.

Initial Results:

Initial results indicates that lower layers generate more toxic and biased tokens, while upper layers tend to be more inclusive, likely due to post-training alignment. Current framework supports all models from the Llama family.

Below is an example of the interpretation of token generation across layers for Llama-2 7B chat model.

Name		Name	Last commit message	Last commit date
Latest commit History 3 Commits
data_generation		data_generation
results		results
tmp		tmp
transformers-4.28.1		transformers-4.28.1
.DS_Store		.DS_Store
.gitignore		.gitignore
HarmfulQA.csv		HarmfulQA.csv
LICENSE		LICENSE
README.md		README.md
TruthfulQA.csv		TruthfulQA.csv
conversation.py		conversation.py
decoding_analysis_utils.py		decoding_analysis_utils.py
dola.py		dola.py
dola_evaluation.ipynb		dola_evaluation.ipynb
example.png		example.png
factor_eval.py		factor_eval.py
figure.png		figure.png
gpt4_judge_eval.py		gpt4_judge_eval.py
gsm8k_eval.py		gsm8k_eval.py
job.slurm		job.slurm
llama-1-test.py		llama-1-test.py
llama_1_test.ipynb		llama_1_test.ipynb
model_layers_mapping.txt		model_layers_mapping.txt
new dola_decoding.ipynb		new dola_decoding.ipynb
output-path-factor-wiki-baseline.json		output-path-factor-wiki-baseline.json
output-path-tfmc-baseline.json		output-path-tfmc-baseline.json
output-path-tfmc-baseline_viz.json		output-path-tfmc-baseline_viz.json
output-path-tfqa-baseline-test.json		output-path-tfqa-baseline-test.json
output-path-tfqa-baseline.json		output-path-tfqa-baseline.json
output-path-tfqa-dola-test.json		output-path-tfqa-dola-test.json
output-path_truthfulqa.json		output-path_truthfulqa.json
requirements.txt		requirements.txt
strqa_eval.py		strqa_eval.py
test_data_small.csv		test_data_small.csv
test_data_small_1.csv		test_data_small_1.csv
tfqa_eval.py		tfqa_eval.py
tfqa_gpt3_rating.py		tfqa_gpt3_rating.py
tfqa_mc_eval.py		tfqa_mc_eval.py
visualization_pipeline.ipynb		visualization_pipeline.ipynb
viz_token_dist.py		viz_token_dist.py
wiki_factor.csv		wiki_factor.csv

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

LLM-behavior-interpretation

Description:

Initial Results:

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

znreza/LLM-behavior-interpretation

Folders and files

Latest commit

History

Repository files navigation

LLM-behavior-interpretation

Description:

Initial Results:

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages