32k模型多卡推理时出现CUDA out of memory #895

tmclouisluk · 2024-02-29T03:36:48Z

tmclouisluk
Feb 29, 2024

使用web_demo_streamlit.py, 用3张P100, 一张大约有16GB
load模型没有问题, 可以切割成3份到3张P100
但prompt token量大的时候, 好像只能用1张P100去推理
一直卡在
torch.cuda.OutOfMemoryError: CUDA out of memory. Tried to allocate 10.90 GiB (GPU 0; 15.90 GiB total capacity; 4.19 GiB already allocated; 10.70 GiB free; 4.31 GiB reserved in total by PyTorch) If reserved memory is >> allocated memory try setting max_split_size_mb to avoid fragmentation. See documentation for Memory Management and PYTORCH_CUDA_ALLOC_CONF

请问可以如何解决

zRzRzRzRzRzRzR · 2024-02-29T03:45:53Z

zRzRzRzRzRzRzR
Feb 29, 2024
Maintainer

毕竟进来的时候是要把完整的tensor先放在一张卡的

另外，P100架构太老了，各种不兼容也有可能，建议使用sm80以上的卡

1 reply

tmclouisluk Feb 29, 2024
Author

那32k token大约需要多少memory

imagebody · 2024-03-08T12:28:50Z

imagebody
Mar 8, 2024

32k微调时候,23G显存都不够，也报OutOfMemoryError。

3 replies

zRzRzRzRzRzRzR Mar 18, 2024
Maintainer

官方demo的显卡要求是针对128 token的，随着token越长，需要的显存越大，而且增长非常快，1024token 24G应该不够了

zainCSU Apr 17, 2024

请问有什么解决办法吗？单卡不够双卡报错，换成非32k的会不会好一点

zRzRzRzRzRzRzR Apr 20, 2024
Maintainer

只要长度不长显存增加就没有那么快吧

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

32k模型多卡推理时出现CUDA out of memory #895

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 4 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

32k模型多卡推理时出现CUDA out of memory #895

Uh oh!

tmclouisluk Feb 29, 2024

Replies: 2 comments · 4 replies

Uh oh!

zRzRzRzRzRzRzR Feb 29, 2024 Maintainer

Uh oh!

tmclouisluk Feb 29, 2024 Author

Uh oh!

imagebody Mar 8, 2024

Uh oh!

zRzRzRzRzRzRzR Mar 18, 2024 Maintainer

Uh oh!

zainCSU Apr 17, 2024

Uh oh!

zRzRzRzRzRzRzR Apr 20, 2024 Maintainer

tmclouisluk
Feb 29, 2024

Replies: 2 comments 4 replies

zRzRzRzRzRzRzR
Feb 29, 2024
Maintainer

tmclouisluk Feb 29, 2024
Author

imagebody
Mar 8, 2024

zRzRzRzRzRzRzR Mar 18, 2024
Maintainer

zRzRzRzRzRzRzR Apr 20, 2024
Maintainer