v0.6.0

OlivierDehaene · OlivierDehaene · commit 282812743444 · 2023-11-30T15:27:47.000+01:00
diff --git a/.github/workflows/build_75.yaml b/.github/workflows/build_75.yaml
@@ -109,10 +109,10 @@
            flavor: |
              latest=false
            tags: |
-             type=semver,pattern=turing-{{version}}+grpc
-             type=semver,pattern=turing-{{major}}.{{minor}}+grpc
-             type=raw,value=turing-latest+grpc
-             type=raw,value=turing-sha-${{ env.GITHUB_SHA_SHORT }}+grpc
+             type=semver,pattern=turing-{{version}}-grpc
+             type=semver,pattern=turing-{{major}}.{{minor}}-grpc
+             type=raw,value=turing-latest-grpc
+             type=raw,value=turing-sha-${{ env.GITHUB_SHA_SHORT }}-grpc
        - name: Build and push Docker image
          id: build-and-push-75-grpc
          uses: docker/build-push-action@v4
diff --git a/.github/workflows/build_80.yaml b/.github/workflows/build_80.yaml
@@ -108,10 +108,10 @@
            flavor: |
              latest=false
            tags: |
-             type=semver,pattern={{version}}+grpc
-             type=semver,pattern={{major}}.{{minor}}+grpc
-             type=raw,value=latest+grpc
-             type=raw,value=sha-${{ env.GITHUB_SHA_SHORT }}+grpc
+             type=semver,pattern={{version}}-grpc
+             type=semver,pattern={{major}}.{{minor}}-grpc
+             type=raw,value=latest-grpc
+             type=raw,value=sha-${{ env.GITHUB_SHA_SHORT }}-grpc
        - name: Build and push Docker image
          id: build-and-push-80-grpc
          uses: docker/build-push-action@v4
diff --git a/.github/workflows/build_86.yaml b/.github/workflows/build_86.yaml
@@ -108,10 +108,10 @@
            flavor: |
              latest=false
            tags: |
-             type=semver,pattern=86-{{version}}+grpc
-             type=semver,pattern=86-{{major}}.{{minor}}+grpc
-             type=raw,value=86-latest+grpc
-             type=raw,value=86-sha-${{ env.GITHUB_SHA_SHORT }}+grpc
+             type=semver,pattern=86-{{version}}-grpc
+             type=semver,pattern=86-{{major}}.{{minor}}-grpc
+             type=raw,value=86-latest-grpc
+             type=raw,value=86-sha-${{ env.GITHUB_SHA_SHORT }}-grpc
        - name: Build and push Docker image
          id: build-and-push-86-grpc
          uses: docker/build-push-action@v4
diff --git a/.github/workflows/build_89.yaml b/.github/workflows/build_89.yaml
@@ -108,10 +108,10 @@
            flavor: |
              latest=false
            tags: |
-             type=semver,pattern=89-{{version}}+grpc
-             type=semver,pattern=89-{{major}}.{{minor}}+grpc
-             type=raw,value=89-latest+grpc
-             type=raw,value=89-sha-${{ env.GITHUB_SHA_SHORT }}+grpc
+             type=semver,pattern=89-{{version}}-grpc
+             type=semver,pattern=89-{{major}}.{{minor}}-grpc
+             type=raw,value=89-latest-grpc
+             type=raw,value=89-sha-${{ env.GITHUB_SHA_SHORT }}-grpc
        - name: Build and push Docker image
          id: build-and-push-89-grpc
          uses: docker/build-push-action@v4
diff --git a/.github/workflows/build_90.yaml b/.github/workflows/build_90.yaml
@@ -108,10 +108,10 @@
            flavor: |
              latest=false
            tags: |
-             type=semver,pattern=hopper-{{version}}+grpc
-             type=semver,pattern=hopper-{{major}}.{{minor}}+grpc
-             type=raw,value=hopper-latest+grpc
-             type=raw,value=hopper-sha-${{ env.GITHUB_SHA_SHORT }}+grpc
+             type=semver,pattern=hopper-{{version}}-grpc
+             type=semver,pattern=hopper-{{major}}.{{minor}}-grpc
+             type=raw,value=hopper-latest-grpc
+             type=raw,value=hopper-sha-${{ env.GITHUB_SHA_SHORT }}-grpc
        - name: Build and push Docker image
          id: build-and-push-90-grpc
          uses: docker/build-push-action@v4
diff --git a/.github/workflows/build_cpu.yaml b/.github/workflows/build_cpu.yaml
@@ -107,10 +107,10 @@
            flavor: |
              latest=false
            tags: |
-             type=semver,pattern=cpu-{{version}}+grpc
-             type=semver,pattern=cpu-{{major}}.{{minor}}+grpc
-             type=raw,value=cpu-latest+grpc
-             type=raw,value=cpu-sha-${{ env.GITHUB_SHA_SHORT }}+grpc
+             type=semver,pattern=cpu-{{version}}-grpc
+             type=semver,pattern=cpu-{{major}}.{{minor}}-grpc
+             type=raw,value=cpu-latest-grpc
+             type=raw,value=cpu-sha-${{ env.GITHUB_SHA_SHORT }}-grpc
        - name: Build and push Docker image
          id: build-and-push-cpu-grpc
          uses: docker/build-push-action@v4
diff --git a/Cargo.lock b/Cargo.lock
diff --git a/Cargo.toml b/Cargo.toml
@@ -11,7 +11,7 @@ members = [
 resolver = "2"
 
 [workspace.package]
-version = "0.5.0"
+version = "0.6.0"
 edition = "2021"
 authors = ["Olivier Dehaene"]
 homepage = "https://github.com/huggingface/text-embeddings-inference"
diff --git a/README.md b/README.md
@@ -102,7 +102,7 @@ model=BAAI/bge-large-en-v1.5
 revision=refs/pr/5
 volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model --revision $revision
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model --revision $revision
 ```
 
 And then you can make requests like
@@ -245,13 +245,13 @@ Text Embeddings Inference ships with multiple Docker images that you can use to
 
 | Architecture                        | Image                                                                   |
 |-------------------------------------|-------------------------------------------------------------------------|
-| CPU                                 | ghcr.io/huggingface/text-embeddings-inference:cpu-0.5                   |
+| CPU                                 | ghcr.io/huggingface/text-embeddings-inference:cpu-0.6                   |
 | Volta                               | NOT SUPPORTED                                                           |
-| Turing (T4, RTX 2000 series, ...)   | ghcr.io/huggingface/text-embeddings-inference:turing-0.5 (experimental) |
-| Ampere 80 (A100, A30)               | ghcr.io/huggingface/text-embeddings-inference:0.5                       |
-| Ampere 86 (A10, A40, ...)           | ghcr.io/huggingface/text-embeddings-inference:86-0.5                    |
-| Ada Lovelace (RTX 4000 series, ...) | ghcr.io/huggingface/text-embeddings-inference:89-0.5                    |
-| Hopper (H100)                       | ghcr.io/huggingface/text-embeddings-inference:hopper-0.5 (experimental) |
+| Turing (T4, RTX 2000 series, ...)   | ghcr.io/huggingface/text-embeddings-inference:turing-0.6 (experimental) |
+| Ampere 80 (A100, A30)               | ghcr.io/huggingface/text-embeddings-inference:0.6                       |
+| Ampere 86 (A10, A40, ...)           | ghcr.io/huggingface/text-embeddings-inference:86-0.6                    |
+| Ada Lovelace (RTX 4000 series, ...) | ghcr.io/huggingface/text-embeddings-inference:89-0.6                    |
+| Hopper (H100)                       | ghcr.io/huggingface/text-embeddings-inference:hopper-0.6 (experimental) |
 
 **Warning**: Flash Attention is turned off by default for the Turing image as it suffers from precision issues.
 You can turn Flash Attention v1 ON by using the `USE_FLASH_ATTENTION=True` environment variable.
@@ -280,7 +280,7 @@ model=<your private model>
 volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
 token=<your cli READ token>
 
-docker run --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model
+docker run --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model
 ```
 
 ### Using Re-rankers models
@@ -298,7 +298,7 @@ model=BAAI/bge-reranker-large
 revision=refs/pr/4
 volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model --revision $revision
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model --revision $revision
 ```
 
 And then you can rank the similarity between a query and a list of texts with:
@@ -318,7 +318,7 @@ You can also use classic Sequence Classification models like `SamLowe/roberta-ba
 model=SamLowe/roberta-base-go_emotions
 volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model 
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model 
 ```
 
 Once you have deployed the model you can use the `predict` endpoint to get the emotions most associated with an input:
@@ -340,14 +340,14 @@ by setting the address to an OTLP collector with the `--otlp-endpoint` argument.
 `text-embeddings-inference` offers a gRPC API as an alternative to the default HTTP API for high performance
 deployments. The API protobuf definition can be found [here](https://github.com/huggingface/text-embeddings-inference/blob/main/proto/tei.proto).
 
-You can use the gRPC API by adding the `+grpc` tag to any TEI Docker image. For example:
+You can use the gRPC API by adding the `-grpc` tag to any TEI Docker image. For example:
 
 ```shell
 model=BAAI/bge-large-en-v1.5
 revision=refs/pr/5
 volume=$PWD/data # share a volume with the Docker container to avoid downloading weights every run
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5+grpc --model-id $model --revision $revision
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6-grpc --model-id $model --revision $revision
 ```
 
 ```shell
diff --git a/docs/openapi.json b/docs/openapi.json
@@ -9,7 +9,7 @@
     "license": {
       "name": "HFOIL"
     },
-    "version": "0.5.0"
+    "version": "0.6.0"
   },
   "paths": {
     "/embed": {
diff --git a/docs/source/en/private_models.md b/docs/source/en/private_models.md
@@ -37,5 +37,5 @@ model=<your private model>
 volume=$PWD/data
 token=<your cli Hugging Face Hub token>
 
-docker run --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model
+docker run --gpus all -e HUGGING_FACE_HUB_TOKEN=$token -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model
 ```
diff --git a/docs/source/en/quick_tour.md b/docs/source/en/quick_tour.md
@@ -34,7 +34,7 @@ model=BAAI/bge-large-en-v1.5
 revision=refs/pr/5
 volume=$PWD/data 
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model --revision $revision
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model --revision $revision
 ```
 
 <Tip>
@@ -69,7 +69,7 @@ model=BAAI/bge-reranker-large
 revision=refs/pr/4
 volume=$PWD/data 
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model --revision $revision
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model --revision $revision
 ```
 
 Once you have deployed a model you can use the `rerank` endpoint to rank the similarity between a query and a list
@@ -90,7 +90,7 @@ You can also use classic Sequence Classification models like `SamLowe/roberta-ba
 model=SamLowe/roberta-base-go_emotions
 volume=$PWD/data 
 
-docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.5 --model-id $model 
+docker run --gpus all -p 8080:80 -v $volume:/data --pull always ghcr.io/huggingface/text-embeddings-inference:0.6 --model-id $model 
 ```
 
 Once you have deployed the model you can use the `predict` endpoint to get the emotions most associated with an input:
diff --git a/docs/source/en/supported_models.md b/docs/source/en/supported_models.md
@@ -70,12 +70,12 @@ Find the appropriate Docker image for your hardware in the following table:
 
 | Architecture                        | Image                                                                     |
 |-------------------------------------|---------------------------------------------------------------------------|
-| CPU                                 | ghcr.io/huggingface/text-embeddings-inference:cpu-0.5                     |
+| CPU                                 | ghcr.io/huggingface/text-embeddings-inference:cpu-0.6                     |
 | Volta                               | NOT SUPPORTED                                                             |
-| Turing (T4, RTX 2000 series, ...)   | ghcr.io/huggingface/text-embeddings-inference:turing-0.5 (experimental)   |
-| Ampere 80 (A100, A30)               | ghcr.io/huggingface/text-embeddings-inference:0.5                         |
-| Ampere 86 (A10, A40, ...)           | ghcr.io/huggingface/text-embeddings-inference:86-0.5                      |
-| Ada Lovelace (RTX 4000 series, ...) | ghcr.io/huggingface/text-embeddings-inference:89-0.5                      |
+| Turing (T4, RTX 2000 series, ...)   | ghcr.io/huggingface/text-embeddings-inference:turing-0.6 (experimental)   |
+| Ampere 80 (A100, A30)               | ghcr.io/huggingface/text-embeddings-inference:0.6                         |
+| Ampere 86 (A10, A40, ...)           | ghcr.io/huggingface/text-embeddings-inference:86-0.6                      |
+| Ada Lovelace (RTX 4000 series, ...) | ghcr.io/huggingface/text-embeddings-inference:89-0.6                      |
 | Hopper (H100)                       | ghcr.io/huggingface/text-embeddings-inference:hopper-0.4.0 (experimental) |
 
 **Warning**: Flash Attention is turned off by default for the Turing image as it suffers from precision issues.