server : be explicit about the pooling type in the tests

ggerganov · ggerganov · commit b1977975a4ab · 2024-12-17T11:45:47.000+02:00
ggml-ci
diff --git a/examples/server/tests/unit/test_embedding.py b/examples/server/tests/unit/test_embedding.py
@@ -14,6 +14,7 @@ def create_server():
 
 def test_embedding_single():
     global server
+    server.pooling = 'last'
     server.start()
     res = server.make_request("POST", "/embeddings", data={
         "input": "I believe the meaning of life is",
@@ -29,6 +30,7 @@ def test_embedding_single():
 
 def test_embedding_multiple():
     global server
+    server.pooling = 'last'
     server.start()
     res = server.make_request("POST", "/embeddings", data={
         "input": [
@@ -46,7 +48,8 @@ def test_embedding_multiple():
 
 
 def test_embedding_pooling_none():
-    server = ServerPreset.bert_bge_small(pooling = 'none')
+    global server
+    server.pooling = 'none'
     server.start()
     res = server.make_request("POST", "/embeddings", data={
         "input": "hello hello hello",
@@ -59,6 +62,7 @@ def test_embedding_pooling_none():
 
 def test_embedding_openai_library_single():
     global server
+    server.pooling = 'last'
     server.start()
     client = OpenAI(api_key="dummy", base_url=f"http://{server.server_host}:{server.server_port}")
     res = client.embeddings.create(model="text-embedding-3-small", input="I believe the meaning of life is")
@@ -68,6 +72,7 @@ def test_embedding_openai_library_single():
 
 def test_embedding_openai_library_multiple():
     global server
+    server.pooling = 'last'
     server.start()
     client = OpenAI(api_key="dummy", base_url=f"http://{server.server_host}:{server.server_port}")
     res = client.embeddings.create(model="text-embedding-3-small", input=[
@@ -83,6 +88,7 @@ def test_embedding_openai_library_multiple():
 
 def test_embedding_error_prompt_too_long():
     global server
+    server.pooling = 'last'
     server.start()
     res = server.make_request("POST", "/embeddings", data={
         "input": "This is a test " * 512,
@@ -92,6 +98,7 @@ def test_embedding_error_prompt_too_long():
 
 
 def test_same_prompt_give_same_result():
+    server.pooling = 'last'
     server.start()
     res = server.make_request("POST", "/embeddings", data={
         "input": [
diff --git a/examples/server/tests/utils.py b/examples/server/tests/utils.py
@@ -275,7 +275,7 @@ def tinyllama2() -> ServerProcess:
         return server
 
     @staticmethod
-    def bert_bge_small(pooling = 'last') -> ServerProcess:
+    def bert_bge_small() -> ServerProcess:
         server = ServerProcess()
         server.model_hf_repo = "ggml-org/models"
         server.model_hf_file = "bert-bge-small/ggml-model-f16.gguf"
@@ -286,7 +286,6 @@ def bert_bge_small(pooling = 'last') -> ServerProcess:
         server.n_slots = 2
         server.seed = 42
         server.server_embeddings = True
-        server.pooling = pooling
         return server
 
     @staticmethod