Share MoE model in RAM across multiple-GPU #1440

hepengfe · 2025-07-13T04:20:43Z

hepengfe
Jul 13, 2025

Is it possible to share MoE model stored in RAM across multiple-GPUs?
Suppose there are 4 GPUs, it can handle 4 inference requests at the same time. All GPU can load MoE tensors from RAM for inference.

fernandaspets · 2025-07-16T03:36:07Z

fernandaspets
Jul 16, 2025

Same question for mixed bag of 7 gpus and model Kimi K2

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Share MoE model in RAM across multiple-GPU #1440

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Share MoE model in RAM across multiple-GPU #1440

Uh oh!

hepengfe Jul 13, 2025

Replies: 1 comment

Uh oh!

fernandaspets Jul 16, 2025

hepengfe
Jul 13, 2025

fernandaspets
Jul 16, 2025