LLaMA调参方式下，能否区分/指定训练集与测试集

如题，通过“--dataset custom1”指定了微调数据集，如何区分训练集与测试集，换言之，没有看到指定测试集的地方。
因此可能出现loss值很低，但是明显过拟合的情况。请指导一下，谢谢。
```
deepspeed --num_gpus=8 src/train_bash.py \
        --stage sft \
        --model_name_or_path /workspace/model/Yuan2-2B-hf/ \
        --do_train \
        --dataset custom1 \
        --finetuning_type full  \
        --output_dir /workspace/pretrain/yuan2_2B_full_fintuning_checkpoint2 \
        --overwrite_cache \
        --per_device_train_batch_size 4 \
        --per_device_eval_batch_size 4  \
        --gradient_accumulation_steps 4  \
        --preprocessing_num_workers 16 \
        --lr_scheduler_type cosine \
        --logging_steps 10    \
        --save_steps 10000   \
        --learning_rate 5e-5   \
        --max_grad_norm 0.5     \
        --num_train_epochs 3000   \
        --evaluation_strategy no  \
        --bf16 \
        --deepspeed ./zero2_ds_woloading.json \
        --template yuan \
        --overwrite_output_dir     \
        --cutoff_len 2048\
        --sft_packing   \
        --gradient_checkpointing True 
```

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

LLaMA调参方式下，能否区分/指定训练集与测试集 #118

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

LLaMA调参方式下，能否区分/指定训练集与测试集 #118

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions