Kindly request the inclusion on a line of papers on harmful fine-tuning for LLMs

Thank you for the wonderful paper collection. We have a line of research on harmful fine-tuning for LLMs. Could you please include this line of work into the repo? 

| Title | Link  | Code |   Venue |  Classification |  Model | Comment | 
| ---- |---- |---- |---- |---- |----|----| 
|   Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning|  [arxiv](https://arxiv.org/abs/2402.01109)  | [github](https://github.com/git-disl/Vaccine)  | NeurIPS'24    | Defense | LLM  | Harmful fine-tuning |
 |   Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning|  [arxiv](https://arxiv.org/abs/2405.18641)  | [github](https://github.com/git-disl/Lisa)  | NeurIPS'24    | Defense | LLM  | Harmful fine-tuning |
 |  Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation|  [arxiv](https://arxiv.org/pdf/2409.01586)  | [github](https://github.com/git-disl/Booster)  | arXiv   | Defense  | LLM  | Harmful fine-tuning |
 |Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning |  [arxiv](https://arxiv.org/abs/2408.09600)  | To-be-released  | arXiv   | Defense  | LLM  | Harmful fine-tuning |
 |Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey |  [arxiv](https://arxiv.org/abs/2409.18169)  | [awesome project](https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers)  | arXiv   | Survey& Other awesome project  | LLM  | Harmful fine-tuning |

Thank you in advance!

Best,
Tiansheng Huang

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Kindly request the inclusion on a line of papers on harmful fine-tuning for LLMs #33

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Title	Link	Code	Venue	Classification	Model	Comment
Vaccine: Perturbation-aware Alignment for Large Language Models against Harmful Fine-tuning	arxiv	github	NeurIPS'24	Defense	LLM	Harmful fine-tuning
Lazy Safety Alignment for Large Language Models against Harmful Fine-tuning	arxiv	github	NeurIPS'24	Defense	LLM	Harmful fine-tuning
Booster: Tackling Harmful Fine-tuning for Large Language Models via Attenuating Harmful Perturbation	arxiv	github	arXiv	Defense	LLM	Harmful fine-tuning
Antidote: Post-fine-tuning Safety Alignment for Large Language Models against Harmful Fine-tuning	arxiv	To-be-released	arXiv	Defense	LLM	Harmful fine-tuning
Harmful Fine-tuning Attacks and Defenses for Large Language Models: A Survey	arxiv	awesome project	arXiv	Survey& Other awesome project	LLM	Harmful fine-tuning

Kindly request the inclusion on a line of papers on harmful fine-tuning for LLMs #33

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions