inference from the same model for multiple concurrent users #3249

alph4b3th · 2023-09-18T14:11:25Z

alph4b3th
Sep 18, 2023

Em uso de produção recebemos inúmeras solicitações simultâneas e queremos responde-las o quanto antes. No entanto, uma instância do modelo parece que só pode responder uma solicitação por vez (até seja informado para ele parar de gerar tokens ou caso ele tenha terminado) e carregar várias instâncias na memória é inviável e lento, o scheduler do sistema operacional ficará louco! Não vi o código fonte completo, mas suspeito de que são instanciadas muitas Threads e poucos ou apenas um processo, se esse for o caso pelo menos o modelo economizará recursos do que se fosse multi-processos mas ainda sim teremos dificuldades em atender várias requisições concorrentemente. Uma das soluções é usar algum design de software como o Worker ou Producer-Consumer para criar instâncias fixas (o que significa que teremos x threads para atender diversas requisições simultâneas).

Design Worker:

O Gerente recebe 300 requisições de usuário simultâneas e encarrega os Workers para a tarefa.
Cada Worker processa um token, guarda algum estado de onde a conversa está no Redis (eu ainda não sei como exatamente coletar estados do llama.cpp) e em seguida dá a vez para próxima requisição (context-switch).
Enquanto tem workers aceitando novas requisições depois de terem processado um token, outros workers irmãos podem continuar processando as requisições pendentes e retornando a etapa 2.

Esse modelo de software descreve como tenho em mente, para atender diversas requisições ao mesmo tempo, sem criar uma instância por requisição. Mas ainda não sei como exatamente realizar isso:

Como obter estados da conversa, de onde exatamente parou? O worker interrompe o processamento para fazer context-switch e atender outra requisição, então é necessário guardar os estados em algum lugar.
Existe uma abordagem mais sofisticada do que a minha? Eu desconheço.
Eu conheço as funções EnablePromptCacheAll e SaveState/LoadState o que elas fazem exatamente? Seria essas as funções necessárias para salvar o estado? mas eu quero salvar em Redis e não em Disco (porque é lento)

Abaixo vai uma pergunta adicional:

Como desabilitar logs?

"llama.133123.log" esses caras lotam meu disco e não descobri ainda como desligar essa coisa chata! e em produção normalmente eu utilizo uma maneira mais sofisticada de manter logs de maneira escalável.

goerch · 2023-09-21T20:41:09Z

goerch
Sep 21, 2023
Collaborator

AFAIU this is under construction.

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

inference from the same model for multiple concurrent users #3249

Uh oh!

{{title}}

Uh oh!

Replies: 1 comment

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

inference from the same model for multiple concurrent users #3249

Uh oh!

alph4b3th Sep 18, 2023

Design Worker:

Replies: 1 comment

Uh oh!

goerch Sep 21, 2023 Collaborator

alph4b3th
Sep 18, 2023

goerch
Sep 21, 2023
Collaborator