Replies: 1 comment
-
AFAIU this is under construction. |
Beta Was this translation helpful? Give feedback.
0 replies
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
Uh oh!
There was an error while loading. Please reload this page.
-
Em uso de produção recebemos inúmeras solicitações simultâneas e queremos responde-las o quanto antes. No entanto, uma instância do modelo parece que só pode responder uma solicitação por vez (até seja informado para ele parar de gerar tokens ou caso ele tenha terminado) e carregar várias instâncias na memória é inviável e lento, o scheduler do sistema operacional ficará louco! Não vi o código fonte completo, mas suspeito de que são instanciadas muitas Threads e poucos ou apenas um processo, se esse for o caso pelo menos o modelo economizará recursos do que se fosse multi-processos mas ainda sim teremos dificuldades em atender várias requisições concorrentemente. Uma das soluções é usar algum design de software como o Worker ou Producer-Consumer para criar instâncias fixas (o que significa que teremos x threads para atender diversas requisições simultâneas).
Design Worker:
Esse modelo de software descreve como tenho em mente, para atender diversas requisições ao mesmo tempo, sem criar uma instância por requisição. Mas ainda não sei como exatamente realizar isso:
Abaixo vai uma pergunta adicional:
"llama.133123.log" esses caras lotam meu disco e não descobri ainda como desligar essa coisa chata! e em produção normalmente eu utilizo uma maneira mais sofisticada de manter logs de maneira escalável.
Beta Was this translation helpful? Give feedback.
All reactions