概述 使用trl、peft、transformers等库,实现对huggingface上模型的微调。 blog 文件 datasets:数据集 models:大模型 results:微调后的模型 chat.py:仅聊天 convert.py:获取数据集并转为json文件保存 download_data.py:仅下载原数据集 main_GRPO.py:RLHF微调模型,使用GRPO算法 main_lora.py:SFT微调模型,lora方法 main_prefix.py:SFT微调模型,prefix方法