llama.cpp下8K context支持（实验性） #696

ymcui · 2023-06-30T02:37:24Z

ymcui
Jun 30, 2023
Maintainer

Update

2023/7/3 transformers下支持4K+ context的代码请参考#705

正文

主要针对以下几个问题进行讨论：

已知本项目提出的中文LLaMA和Alpaca模型训练时的长度为512，而原版LLaMA的长度是2048，那么我们的模型是否支持2048（2K）context？
近期关于扩展大模型context长度的讨论很多，有没有“无创升级”模型的方案？

本讨论针对llama.cpp项目中的一个讨论里提到的方法进行了实验验证，探索在llama.cpp下进一步加长context长度的方法。

llama.cpp项目原post和相关讨论：Extending context size via RoPE scaling ggml-org/llama.cpp#1965 (comment)
Reddit讨论：https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/

修改方法

整体修改方法很简单，多数用户只需执行第一步代码替换和重新编译。

修改llama.cpp中的ggml.c文件

找到以下语句：

const float theta_scale = powf(10000.0, -2.0f/n_dims);

替换为（以防万一，建议是注释原实现，而不是删除）：

//const float theta_scale = powf(10000.0, -2.0f/n_dims);
const float theta_scale = powf(10000.0 * powf(8.0, n_dims / (n_dims - 2.0)), -2.0f/n_dims);

该文件中一共有4处相关定义，建议全部修改。

（可选）使用cuBLAS或者Metal的用户需要进行如下修改。

使用cuBLAS的用户：修改ggml-cuda.cu文件，方法与第一步一致。
使用Metal（Apple M系列GPU）的用户：修改ggml-metal.metal文件，方法与第一步一致。注意powf函数需要改为pow。

重新编译llama.cpp（cuBLAS请按实际情况加上环境变量）

make clean && make

实验结果

以下是原RoPE方法和新方法在不同context length下的PPL对比。以下以LLaMA-Plus-7B-Q6_K（效果与FP16相差0.1%以内）为测试模型，评测中文文本数据上的PPL。

./perplexity -m zh-llama-models/p7b/ggml-model-q6_k.bin -f text.txt -ngl 1 -c $CTX_SIZE

方法	512	1024	2048	2560	3072	4096	5120	6144	8192	10240
main branch	11.830	11.733	10.676	31.480	259	486
本讨论中的方法	11.184	12.432	10.853	12.447	13.243	12.665	13.375	14.010	15.399	52.038

结论和建议

虽然我们的模型在训练时的最大长度设置为512，但由于原版LLaMA是2048，从表中可见，我们的模型完全可以支持2K context，且对应的PPL相比长度512时更低
context小于2048时，原方法效果占优（并不全是），大于2048时新方法具有显著优势
改进方法在8K context下仍然能够保持一个相对合理的PPL
10K context下的PPL显著上升，因此不建议在8K以上context运行

AlvL1225 · 2023-06-30T03:28:03Z

AlvL1225
Jun 30, 2023

绝了

0 replies

zhangfan-algo · 2023-06-30T09:09:46Z

zhangfan-algo
Jun 30, 2023

GPU推理和微调可以支持8K吗

1 reply

ymcui Jun 30, 2023
Maintainer Author

这里写的是inference阶段的修改，不涉及训练。原则上你想训练也不是不可以，参考meta的论文：https://arxiv.org/abs/2306.15595

Louis-y-nlp · 2023-06-30T09:24:31Z

Louis-y-nlp
Jun 30, 2023

位置插值那篇论文吗？可否提供一个python对RotaryEmbedding修改的示例？还是说像 https://kaiokendev.github.io/til#extending-context-to-8k 这里一样，简单的对t除以8或者4就可以。

1 reply

ymcui Jun 30, 2023
Maintainer Author

原post：https://www.reddit.com/r/LocalLLaMA/comments/14lz7j5/ntkaware_scaled_rope_allows_llama_models_to_have/
llama.cpp下的patch：ggml-org/llama.cpp#1965 (comment)

glcolor · 2023-06-30T09:34:28Z

glcolor
Jun 30, 2023

真是让人惊喜。
这两天看到有低成本实现32K上下文的方案，希望能早日得到的应用。

1 reply

ymcui Jun 30, 2023
Maintainer Author

近期社区关于这个的讨论比较多，有望短期内能获得更优的效果，我们也会持续关注和测试。

minlik · 2023-07-03T05:22:58Z

minlik
Jul 3, 2023

理论上chinese-llama和chinese-alpaca，context都可以通过scale拓展到8k甚至更长吧？alpaca是经过sft训练过的，不知道scale会不会对效果有影响。

1 reply

ymcui Jul 3, 2023
Maintainer Author

可以

ymcui · 2023-07-03T07:55:38Z

ymcui
Jul 3, 2023
Maintainer Author

Update: transformers下支持4K+ context的代码请参考#705

2 replies

Louis-y-nlp Jul 3, 2023

大致看了一下，是和我上面说的一样对t除以缩放系数。大佬有测试过生成效果吗？之前在baichuan的模型（也是llama结构）上做了测试，肉眼看起来生成效果不好，不确定原因。

Louis-y-nlp Jul 3, 2023

另外根据原始idea提出者的代码，https://huggingface.co/kaiokendev/superhot-7b-8k-no-rlhf-test/blob/main/llama_rope_scaled_monkey_patch.py 原始方案在embedding初始化时就根据最大长度确定了缩放系数，初始化和forward都进行了缩放，而您的实现只在forward时根据当前的seq_len确定缩放系数和进行缩放，不知道有没有对比过两种方法的效果。如过我有哪里理解不对的地方麻烦指教。

airaria · 2023-07-03T08:45:06Z

airaria
Jul 3, 2023

另外根据原始idea提出者的代码，https://huggingface.co/kaiokendev/superhot-7b-8k-no-rlhf-test/blob/main/llama_rope_scaled_monkey_patch.py 原始方案在embedding初始化时就根据最大长度确定了缩放系数，初始化和forward都进行了缩放，而您的实现只在forward时根据当前的seq_len确定缩放系数和进行缩放，不知道有没有对比过两种方法的效果。如过我有哪里理解不对的地方麻烦指教。

根据在测试集上测试结果，仅根据当前的seq_len缩放会比在初始化时就缩放的ppl低

0 replies

llama.cpp下8K context支持（实验性） #696

Uh oh!

Uh oh!

ymcui Jun 30, 2023 Maintainer

Update

正文

修改方法

实验结果

结论和建议

Replies: 7 comments · 6 replies

Uh oh!

Uh oh!

Uh oh!

ymcui Jun 30, 2023 Maintainer Author

Uh oh!

Uh oh!

ymcui Jun 30, 2023 Maintainer Author

Uh oh!

Uh oh!

ymcui Jun 30, 2023 Maintainer Author

Uh oh!

Uh oh!

ymcui Jul 3, 2023 Maintainer Author

Uh oh!

ymcui Jul 3, 2023 Maintainer Author

Uh oh!

Uh oh!

Uh oh!

Uh oh!

ymcui
Jun 30, 2023
Maintainer

Replies: 7 comments 6 replies

ymcui Jun 30, 2023
Maintainer Author

ymcui Jun 30, 2023
Maintainer Author

ymcui Jun 30, 2023
Maintainer Author

ymcui Jul 3, 2023
Maintainer Author

ymcui
Jul 3, 2023
Maintainer Author