[sabia-3] What are possible reasons for non reproducibility? #119

deniseiras · 2024-09-11T22:00:14Z

deniseiras
Sep 11, 2024

I ran two times the same prompt, starting a new session in each execution.
I used the code in here to call the API: https://github.com/deniseiras/PORTFOLIO_py_maritaca_api
Even in the first call of the get_completion method (reusing the model) I get different results.
I am using Sabia-3 API and a prompt with:
Temperature = 0
Prompt tokens: 2912
Response tokens: 1631

PS: I would't like to share my prompt due to a private project.

hugoabonizio · 2024-09-12T16:36:14Z

hugoabonizio
Sep 12, 2024
Maintainer

Hi @deniseiras! I tried running 50 generations with temperature=0.0, and I couldn't reproduce the variation in output. Are you experiencing variations with fewer samples than that?

However, it's important to note that there's inherent non-determinism when dealing with GPUs and batched computations, so we can't guarantee 100% reproducibility. Nonetheless, the differences when using temperature=0.0 are expected to be small.

import maritalk
from tqdm import trange

model = maritalk.MariTalk(
    key="112214802853319356013_eadffed51934d199",
    model="sabia-3"
)

outputs = []

for _ in trange(50):
    response = model.generate(
        "Escreva um texto sobre a importância da água para a vida humana.",
        temperature=0.0,
        max_tokens=150,
    )
    outputs.append(response["answer"])

unique_outputs = set(outputs)
print(len(unique_outputs)) # 1
print(unique_outputs) # {'A água é um recurso natural essencial para a vida humana e para a manutenção do equilíbrio dos ecossistemas no planeta Terra. Ela é o principal componente dos organismos vivos, representando cerca de 60% do peso corporal de um adulto, e é fundamental para uma série de processos biológicos, como a regulação da temperatura corporal, o transporte de nutrientes e a eliminação de resíduos.\n\nAlém de ser vital para o consumo humano, a água é indispensável para a produção de alimentos, tanto na irrigação das lavouras quanto na criação de animais. A agricultura é, de fato, o'}

1 reply

deniseiras Sep 12, 2024
Author

Hi Hugo!

Thanks for your fast answer!
I don't have any problems with small prompts. I'm not using GPU's or batches.

I changed my subject of prompt, and used your code, increasing the max_tokens and testing 3 times. In this example I found just one difference ('falta de tempero no filé' x 'falta de tempero no frango'), but I have more diferences in my real prompts, similar to that one.

Below the code, output and my environment configuration.

Maybe is something related to the message in the result None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used. ?

Code:

import maritalk

model = maritalk.MariTalk(
    key="****",
    model="sabia-3"
)

outputs = []

p = """
Você é um extrator de aspectos de comida e bebida. Do texto, extraia os ‘aspectos’ e a ‘categoria’ relacionados aos aspectos de comida e bebida. As categorias devem estar dentre os valores: ‘visual’, ‘aroma’, ‘sabor’, ‘textura’, ‘temperatura’ e ‘sensação na boca’. Extraia o ‘sentimento’ dentre os valores ‘muito negativo’, ‘negativo’, ‘neutro’, ‘positivo’ ou ‘muito positivo’ para cada par aspecto/categoria.

Cada avaliação a ser avaliada está compreendida entre chaves. Cada item contém "index", que registra o índice da avaliação e "review_comment", que é o texto a ser avaliado.
Não faça comentários, apenas gere a saída dos campos extraídos no formato a seguir: ['index','aspecto','categoria','sentimento']

Abaixo, entre aspas, exemplos de textos de avaliações e o resultado esperado. Ignore o valor do campo index dos exemplos, pois são apenas para mostrar o formato de saída.

"Apresentação do prato foi excelente: salmão grelhado com uma cor vibrante e acompanhado por legumes levemente salteados. O aroma do peixe era fresco, sem qualquer sinal de odor desagradável. No entanto, o sabor deixou a desejar, com o peixe excessivamente seco e sem tempero adequado. Além disso, o prato foi servido quase frio, o que diminuiu ainda mais a experiência. Textura dos legumes estava ótima, crocantes por fora e macios por dentro.
['0', 'cor vibrante do salmão', 'visual', 'positivo'],
['0', 'aroma fresco do peixe', 'aroma', 'positivo'],
['0', 'salmão seco', 'textura', 'negativo'],
['0', 'falta de tempero no peixe', 'sabor', 'negativo'],
['0', 'prato servido frio', 'temperatura', 'negativo'],
['0', 'textura dos legumes crocantes por fora e macios por dentro', 'textura', 'positivo']
"

"O bolo de chocolate estava lindamente decorado com ganache. O aroma era intenso, com notas de cacau e um leve toque de baunilha. Ao provar, o sabor era rico, mas não excessivamente doce, com uma textura macia e úmida. A única decepção foi a temperatura, que estava ligeiramente abaixo do esperado, fazendo com que a ganache ficasse um pouco firme demais.
['0', 'decoração com ganache', 'visual', 'positivo'],
['0', 'aroma de cacau', 'aroma', 'positivo'],
['0', 'aroma de baunilha', 'aroma', 'positivo'],
['0', 'sabor rico e equilibrado', 'sabor', 'positivo'],
['0', 'textura macia e úmida', 'textura', 'positivo'],
['0', 'ganache firme demais', 'textura', 'negativo'],
['0', 'temperatura abaixo do esperado', 'temperatura', 'negativo']
"

"Uma sopa quente e reconfortante, com uma cor cremosa e apetecível. O aroma de ervas frescas era envolvente. O sabor estava equilibrado, mas a textura era um pouco espessa demais para meu gosto. Também achei que a sopa poderia estar um pouco mais quente.
['0', 'cor cremosa e apetecível', 'visual', 'positivo'],
['0', 'aroma de ervas frescas', 'aroma', 'positivo'],
['0', 'sabor equilibrado', 'sabor', 'positivo'],
['0', 'textura espessa demais', 'textura', 'negativo'],
['0', 'sopa poderia estar mais quente', 'temperatura', 'negativo']
"

{"0", "O sanduíche veio muito bem montado, com uma aparência excelente, mas o pão estava um pouco seco. O recheio estava saboroso, com presunto de boa qualidade e queijo derretido. No entanto, o sanduíche chegou morno, o que deixou a experiência um pouco abaixo do esperado."}
{'1', "A pizza estava maravilhosa, crocante por fora e macia por dentro, com uma borda recheada generosa. O aroma do molho de tomate fresco era fantástico. No entanto, o excesso de queijo fez com que o sabor ficasse um pouco enjoativo depois de algumas fatias."}
{'2', "O filé de frango estava bem grelhado, mas faltou tempero. A salada de acompanhamento estava fresca e crocante. A apresentação do prato foi simples, mas agradável. Achei que a temperatura do prato estava perfeita."}
{'3', "A sopa veio quente, do jeito que gosto, mas a textura estava muito líquida, quase sem consistência. O aroma era gostoso, com um leve toque de alho e coentro. No entanto, o sabor me decepcionou, parecia aguado e sem tempero."}
{'4', "O prato de massas estava muito bom, com a massa cozida al dente e um molho de tomate delicioso. A quantidade de queijo ralado estava na medida certa. A única reclamação foi que o prato estava um pouco frio quando chegou à mesa."}
{'5', "O suco de laranja natural estava bem refrescante, com um ótimo equilíbrio entre o doce e o azedo. No entanto, senti que a textura estava um pouco grossa, talvez pelo excesso de polpa não coada."}
{'6', "O sushi estava muito fresco, com uma apresentação impecável. O sabor do peixe estava excelente, mas o arroz estava um pouco mole demais para o meu gosto. A temperatura estava ideal."}
{'7', "A sobremesa de mousse de chocolate estava muito doce para o meu gosto, mas a textura era aveludada e cremosa, muito bem feita. O aroma de chocolate amargo era incrível, o que ajudou a balancear a experiência."}
{'8', "O cappuccino estava delicioso, com uma espuma cremosa e uma temperatura perfeita para saborear. O aroma de café era forte e marcante, mas o gosto estava um pouco amargo demais para o meu paladar."}
"""

outputs = []

for _ in range(3):
    response = model.generate(p, temperature=0.0, max_tokens=10000)
    outputs.append(response["answer"])

unique_outputs = set(outputs)
print(len(unique_outputs)) # 1
print(unique_outputs)

Result:

None of PyTorch, TensorFlow >= 2.0, or Flax have been found. Models won't be available and only tokenizers, configuration and file/data utilities can be used.
2
{"[\n['0', 'aparência excelente do sanduíche', 'visual', 'positivo'],\n['0', 'pão um pouco seco', 'textura', 'negativo'],\n['0', 'recheio saboroso', 'sabor', 'positivo'],\n['0', 'presunto de boa qualidade', 'sabor', 'positivo'],\n['0', 'queijo derretido', 'textura', 'positivo'],\n['0', 'sanduíche chegou morno', 'temperatura', 'negativo']\n],\n[\n['1', 'pizza crocante por fora e macia por dentro', 'textura', 'positivo'],\n['1', 'borda recheada generosa', 'visual', 'positivo'],\n['1', 'aroma do molho de tomate fresco', 'aroma', 'positivo'],\n['1', 'excesso de queijo', 'sabor', 'negativo']\n],\n[\n['2', 'filé de frango bem grelhado', 'textura', 'positivo'],\n['2', 'falta de tempero no filé', 'sabor', 'negativo'],\n['2', 'salada fresca e crocante', 'textura', 'positivo'],\n['2', 'apresentação simples mas agradável', 'visual', 'positivo'],\n['2', 'temperatura do prato perfeita', 'temperatura', 'positivo']\n],\n[\n['3', 'sopa quente', 'temperatura', 'positivo'],\n['3', 'textura muito líquida', 'textura', 'negativo'],\n['3', 'aroma gostoso com toque de alho e coentro', 'aroma', 'positivo'],\n['3', 'sabor aguado e sem tempero', 'sabor', 'negativo']\n],\n[\n['4', 'massa cozida al dente', 'textura', 'positivo'],\n['4', 'molho de tomate delicioso', 'sabor', 'positivo'],\n['4', 'quantidade de queijo ralado na medida certa', 'sabor', 'positivo'],\n['4', 'prato um pouco frio', 'temperatura', 'negativo']\n],\n[\n['5', 'suco de laranja refrescante', 'sabor', 'positivo'],\n['5', 'equilíbrio entre doce e azedo', 'sabor', 'positivo'],\n['5', 'textura um pouco grossa', 'textura', 'negativo']\n],\n[\n['6', 'sushi fresco', 'visual', 'positivo'],\n['6', 'apresentação impecável', 'visual', 'positivo'],\n['6', 'sabor do peixe excelente', 'sabor', 'positivo'],\n['6', 'arroz um pouco mole', 'textura', 'negativo'],\n['6', 'temperatura ideal', 'temperatura', 'positivo']\n],\n[\n['7', 'mousse de chocolate muito doce', 'sabor', 'negativo'],\n['7', 'textura aveludada e cremosa', 'textura', 'positivo'],\n['7', 'aroma de chocolate amargo', 'aroma', 'positivo']\n],\n[\n['8', 'cappuccino delicioso', 'sabor', 'positivo'],\n['8', 'espuma cremosa', 'textura', 'positivo'],\n['8', 'temperatura perfeita', 'temperatura', 'positivo'],\n['8', 'aroma de café forte e marcante', 'aroma', 'positivo'],\n['8', 'gosto um pouco amargo', 'sabor', 'negativo']\n]", "[\n['0', 'aparência excelente do sanduíche', 'visual', 'positivo'],\n['0', 'pão um pouco seco', 'textura', 'negativo'],\n['0', 'recheio saboroso', 'sabor', 'positivo'],\n['0', 'presunto de boa qualidade', 'sabor', 'positivo'],\n['0', 'queijo derretido', 'textura', 'positivo'],\n['0', 'sanduíche chegou morno', 'temperatura', 'negativo']\n],\n[\n['1', 'pizza crocante por fora e macia por dentro', 'textura', 'positivo'],\n['1', 'borda recheada generosa', 'visual', 'positivo'],\n['1', 'aroma do molho de tomate fresco', 'aroma', 'positivo'],\n['1', 'excesso de queijo', 'sabor', 'negativo']\n],\n[\n['2', 'filé de frango bem grelhado', 'textura', 'positivo'],\n['2', 'falta de tempero no frango', 'sabor', 'negativo'],\n['2', 'salada fresca e crocante', 'textura', 'positivo'],\n['2', 'apresentação simples mas agradável', 'visual', 'positivo'],\n['2', 'temperatura do prato perfeita', 'temperatura', 'positivo']\n],\n[\n['3', 'sopa quente', 'temperatura', 'positivo'],\n['3', 'textura muito líquida', 'textura', 'negativo'],\n['3', 'aroma gostoso com toque de alho e coentro', 'aroma', 'positivo'],\n['3', 'sabor aguado e sem tempero', 'sabor', 'negativo']\n],\n[\n['4', 'massa cozida al dente', 'textura', 'positivo'],\n['4', 'molho de tomate delicioso', 'sabor', 'positivo'],\n['4', 'quantidade de queijo ralado na medida certa', 'sabor', 'positivo'],\n['4', 'prato um pouco frio', 'temperatura', 'negativo']\n],\n[\n['5', 'suco de laranja refrescante', 'sabor', 'positivo'],\n['5', 'equilíbrio entre doce e azedo', 'sabor', 'positivo'],\n['5', 'textura um pouco grossa', 'textura', 'negativo']\n],\n[\n['6', 'sushi fresco', 'visual', 'positivo'],\n['6', 'apresentação impecável', 'visual', 'positivo'],\n['6', 'sabor do peixe excelente', 'sabor', 'positivo'],\n['6', 'arroz um pouco mole', 'textura', 'negativo'],\n['6', 'temperatura ideal', 'temperatura', 'positivo']\n],\n[\n['7', 'mousse de chocolate muito doce', 'sabor', 'negativo'],\n['7', 'textura aveludada e cremosa', 'textura', 'positivo'],\n['7', 'aroma de chocolate amargo', 'aroma', 'positivo']\n],\n[\n['8', 'cappuccino delicioso', 'sabor', 'positivo'],\n['8', 'espuma cremosa', 'textura', 'positivo'],\n['8', 'temperatura perfeita', 'temperatura', 'positivo'],\n['8', 'aroma de café forte e marcante', 'aroma', 'positivo'],\n['8', 'gosto um pouco amargo', 'sabor', 'negativo']\n]"}

Environment
Python 3.11.3
Pip libraries:

annotated-types==0.7.0
anyio==4.4.0
attrs==23.2.0
beautifulsoup4==4.12.3
bs4==0.0.2
certifi==2024.6.2
charset-normalizer==3.3.2
contourpy==1.2.1
cycler==0.12.1
distro==1.9.0
filelock==3.15.4
fonttools==4.53.0
fsspec==2024.6.1
h11==0.14.0
httpcore==1.0.5
httpx==0.27.0
huggingface-hub==0.24.6
idna==3.7
kiwisolver==1.4.5
maritalk==0.2.6
matplotlib==3.9.0
numpy==2.0.0
openai==1.35.5
outcome==1.3.0.post0
packaging==24.1
pandas==2.2.2
pillow==10.3.0
pydantic==2.7.4
pydantic_core==2.18.4
pyparsing==3.1.2
PySocks==1.7.1
python-dateutil==2.9.0.post0
python-dotenv==1.0.1
pytz==2024.1
PyYAML==6.0.2
regex==2024.5.15
requests==2.32.3
safetensors==0.4.4
selenium==4.22.0
six==1.16.0
sniffio==1.3.1
sortedcontainers==2.4.0
soupsieve==2.5
tiktoken==0.7.0
tokenizers==0.19.1
tqdm==4.66.4
transformers==4.44.2
trio==0.25.1
trio-websocket==0.11.1
typing_extensions==4.12.2
tzdata==2024.1
urllib3==2.2.2
websocket-client==1.8.0
wsproto==1.2.0

rodrigo-f-nogueira · 2024-09-14T13:07:54Z

rodrigo-f-nogueira
Sep 14, 2024
Maintainer

Hi Denis!

We were able to reproduce the issue you described.

The problem is that, during decoding, 2 tokens might have very similar probabilities, and due to numerical imprecisions, one token might be selected over the other. That is, the result for two identical prompts might be different, even when using temperature=0.0.

This issue you are seeing here, we believe, also happens with other APIs, such as OpenAI's:
https://community.openai.com/t/observing-discrepancy-in-completions-with-temperature-0/73380/5

Unfortunately, we don't know of any solution to this problem at the moment, but please let us know if this is an impediment to using our API. If so, we will discuss it deeper internally to see how we can mitigate this problem.

0 replies

deniseiras · 2024-09-14T13:46:51Z

deniseiras
Sep 14, 2024
Author

Hi Rodrigo. Yes, it occurs also with openai, but less frequently. I understand problems related to precision and I know its a hard issue to deal with. I wonder that this kind of issue could lead to not using gen AI for some tools that need to have allways the same results. Maybe you can implement a solution that rounds the output considering an number with less precision, but I think this could lead to worst results. It could be a parameter to the user. Just wondering some possible solutions... Thanks a lot for your time Cheers Denis Other problem i did not relate is that the output format I suggested sometimes are incorrect. Em sáb., 14 de set. de 2024 10:08, Rodrigo Nogueira < ***@***.***> escreveu:

…

Hi Denis! We were able to reproduce the issue you described. The problem is that, during decoding, 2 tokens might have very similar probabilities, and due to numerical imprecisions, one token might be selected over the other. That is, the result for two identical prompts might be different, even when using temperature=0.0. This issue you are seeing here, we believe, also happens with other APIs, such as OpenAI's: https://community.openai.com/t/observing-discrepancy-in-completions-with-temperature-0/73380/3 Unfortunately, we don't know of any solution to this problem at the moment, but please let us know if this is an impediment to using our API. If so, we will discuss it deeper internally to see how we can mitigate this problem. — Reply to this email directly, view it on GitHub <#119 (comment)>, or unsubscribe <https://github.com/notifications/unsubscribe-auth/ABOUS2FELXFPQTCNOU6LLILZWQYL7AVCNFSM6AAAAABOB3Z7JOVHI2DSMVQWIX3LMV43URDJONRXK43TNFXW4Q3PNVWWK3TUHMYTANRUGY2DMOA> . You are receiving this because you were mentioned.Message ID: ***@***.*** com>

0 replies

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

[sabia-3] What are possible reasons for non reproducibility? #119

Uh oh!

{{title}}

Uh oh!

Replies: 3 comments 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

[sabia-3] What are possible reasons for non reproducibility? #119

Uh oh!

deniseiras Sep 11, 2024

Replies: 3 comments · 1 reply

Uh oh!

hugoabonizio Sep 12, 2024 Maintainer

Uh oh!

Uh oh!

deniseiras Sep 12, 2024 Author

Uh oh!

Uh oh!

rodrigo-f-nogueira Sep 14, 2024 Maintainer

Uh oh!

deniseiras Sep 14, 2024 Author

deniseiras
Sep 11, 2024

Replies: 3 comments 1 reply

hugoabonizio
Sep 12, 2024
Maintainer

deniseiras Sep 12, 2024
Author

rodrigo-f-nogueira
Sep 14, 2024
Maintainer

deniseiras
Sep 14, 2024
Author