@@ -16,7 +16,7 @@ CheckpointManager
16
16
17
17
- ``checkpoint_every ``: 检查点存储频率,参数类型 ``int ``,默认为: ``50 ``。
18
18
19
- - ``load_ckpt_folder ``: 初始化检查点/权重加载路径 。参数类型 ``str ``,默认为: ``None ``,详见 :ref: `load-ckpt-folder `。
19
+ - ``load_ckpt_info ``: 初始化检查点/权重加载信息 。参数类型 ``dict ``,默认为: ``None ``,详见 :ref: `load-ckpt-info `。
20
20
21
21
- ``async_upload ``: 是否开启异步上传,默认值为:``False ``,详见 :ref: `asyncupload `。
22
22
@@ -36,8 +36,8 @@ CheckpointManager
36
36
ckpt = dict (
37
37
enable_save_ckpt = False , # enable ckpt save.
38
38
save_ckpt_folder = SAVE_CKPT_FOLDER , # Path to save training ckpt.
39
- load_ckpt_folder = dict (path = " local:/mnt/mfs/ckpt" , content = [" all" ,], ckpt_type = " internlm" ),
40
- auto_resume = False , # disable auto-resume, internlm will load model checkpoint from the path of 'load_ckpt_folder '.
39
+ load_ckpt_info = dict (path = " local:/mnt/mfs/ckpt" , content = [" all" ,], ckpt_type = " internlm" ),
40
+ auto_resume = False , # disable auto-resume, internlm will load model checkpoint from the path of 'load_ckpt_info '.
41
41
checkpoint_every = CHECKPOINT_EVERY ,
42
42
async_upload = True , # async ckpt upload. (only work for boto3, volc and oss2 ckpt)
43
43
async_upload_tmp_folder = " /dev/shm/internlm_tmp_ckpt/" , # path for temporarily files during asynchronous upload.
@@ -52,7 +52,7 @@ CheckpointManager
52
52
加载与存储格式约定
53
53
--------------------------
54
54
55
- .. _load-ckpt-folder :
55
+ .. _load-ckpt-info :
56
56
57
57
(1) 路径格式约定
58
58
~~~~~~~~~~~~~~~~~~~~~~~~~~
@@ -75,10 +75,10 @@ InternEvo对config中出现的所有存储路径都遵循以下的路径格式
75
75
76
76
77
77
78
- (2) 模型加载(load_ckpt_folder )格式约定
78
+ (2) 模型加载(load_ckpt_info )格式约定
79
79
~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
80
80
81
- load_ckpt_folder 由三个字段组成, ``path `` 、 ``content `` 和 ``ckpt_type `` 。
81
+ load_ckpt_info 由三个字段组成, ``path `` 、 ``content `` 和 ``ckpt_type `` 。
82
82
83
83
- ``path ``:给出了检查点/初始化模型权重的加载路径(path的格式见下小节)
84
84
@@ -92,17 +92,23 @@ load_ckpt_folder 由三个字段组成, ``path`` 、 ``content`` 和 ``ckpt_ty
92
92
93
93
- ``ckpt_type ``:表示加载的模型权重类型,目前支持的字段包括:
94
94
95
- - ``internlm ``:internevo约定的checkpoint存储格式。
95
+ - ``internevo ``:internevo约定的checkpoint存储格式。
96
+ - ``llama ``:llama约定的checkpoint存储格式。
97
+ - ``hf_llama ``:huggingface llama约定的checkpoint存储格式。
98
+ - ``hf_model ``:适用于加载huggingface所有模型的checkpoint存储格式。
96
99
97
100
下面给出两个例子:
98
101
99
102
.. code-block :: python
100
103
101
104
# 从文件存储相对路径 ckpt_model 中加载已有模型权重初始化模型,适合 sft 等训练初始化
102
- load_ckpt_folder = dict (path = " local:ckpt_model" , content = [ " model" ,] , ckpt_type = " internlm " )
105
+ load_ckpt_info = dict (path = " local:ckpt_model" , content = ( " model" ,) , ckpt_type = " internevo " )
103
106
104
107
# 从文件存储相对路径 ckpt_model 中加载所有的状态,适合断点续训的场景
105
- load_ckpt_folder= dict (path = " local:ckpt_model" , content = [" all" ,], ckpt_type = " internlm" )
108
+ load_ckpt_info = dict (path = " local:ckpt_model" , content = (" all" ,), ckpt_type = " internevo" )
109
+
110
+ # 从 huggingface 下载指定模型,加载checkpoint
111
+ load_ckpt_info = dict (path = " internlm/internlm-7b" , content = (" model" ,), ckpt_type = " hf_model" )
106
112
107
113
108
114
.. _asyncupload :
@@ -144,13 +150,13 @@ config.ckpt 中相关的参数:
144
150
145
151
检查点自动加载功能的目的是在resume训练时,自动加载 ``save_ckpt_folder `` 路径下最新的检查点(包括snapshot检查点)。配合上自动重启机制,可以实现无人干预的任务自动恢复。
146
152
147
- 该功能默认开启,所以要注意如果需要加载 ``load_ckpt_folder `` 路径下的模型权重,要将 ``auto_resume `` 设置为 False,否则可能会产生预期外的行为。
153
+ 该功能默认开启,所以要注意如果需要加载 ``load_ckpt_info `` 路径下的模型权重,要将 ``auto_resume `` 设置为 False,否则可能会产生预期外的行为。
148
154
149
155
config.ckpt 中相关的参数:
150
156
151
157
- ``auto_resume ``: 是否开启检查点自动恢复。参数类型 ``bool ``,默认为 ``True ``。
152
158
153
- ``auto_resume `` 如果为True,则尝试从 ``save_ckpt_folder `` 路径中自动加载最新的ckpt,如果找不到,则从step 0开始训练。如果为False,则尝试从 ``load_ckpt_folder `` 中加载模型参数。
159
+ ``auto_resume `` 如果为True,则尝试从 ``save_ckpt_folder `` 路径中自动加载最新的ckpt,如果找不到,则从step 0开始训练。如果为False,则尝试从 ``load_ckpt_info `` 中加载模型参数。
154
160
155
161
156
162
.. _stopfile :
0 commit comments