vllm-project
diff --git a/‎.pre-commit-config.yaml
Lines changed: 1 addition & 0 deletions b/‎.pre-commit-config.yaml
Lines changed: 1 addition & 0 deletions
diff --git a/‎pyproject.toml
Lines changed: 2 additions & 0 deletions b/‎pyproject.toml
Lines changed: 2 additions & 0 deletions
diff --git a/‎src/guidellm/__init__.py
Lines changed: 8 additions & 0 deletions b/‎src/guidellm/__init__.py
Lines changed: 8 additions & 0 deletions
diff --git a/‎src/guidellm/backend/base.py
Lines changed: 41 additions & 0 deletions b/‎src/guidellm/backend/base.py
Lines changed: 41 additions & 0 deletions
diff --git a/‎src/guidellm/backend/openai.py
Lines changed: 11 additions & 13 deletions b/‎src/guidellm/backend/openai.py
Lines changed: 11 additions & 13 deletions
diff --git a/‎src/guidellm/config.py
Lines changed: 4 additions & 4 deletions b/‎src/guidellm/config.py
Lines changed: 4 additions & 4 deletions
@@ -26,6 +26,7 @@ repos:
         pydantic_settings,
         pyyaml,
         requests,
+        rich,
         transformers,
 
         # dev dependencies
 
@@ -35,6 +35,7 @@ dependencies = [
     "pydantic-settings>=2.0.0",
     "pyyaml>=6.0.0",
     "requests",
+    "rich",
     "transformers",
 ]
 
@@ -182,6 +183,7 @@ select = [
     "N806", # allow uppercase variable names in tests
     "PGH003", # allow general ignores in tests
     "S106", # allow hardcoded passwords in tests
+    "PLR0915", # allow complext statements in tests
 ]
 
 [tool.ruff.lint.isort]
 
@@ -3,7 +3,15 @@
 evaluating and benchmarking large language models (LLMs).
 """
 
+import os
+
+import transformers  # type: ignore  # noqa: PGH003
+
 from .config import settings
 from .logger import configure_logger, logger
 
 __all__ = ["configure_logger", "logger", "settings"]
+
+
+os.environ["TOKENIZERS_PARALLELISM"] = "false"  # Silence warnings for tokenizers
+transformers.logging.set_verbosity_error()  # Silence warnings for transformers
@@ -51,6 +51,12 @@ class Backend(ABC):
 
     :cvar _registry: A dictionary that maps BackendEngine types to backend classes.
     :type _registry: Dict[BackendEngine, Type[Backend]]
+    :param type_: The type of the backend.
+    :type type_: BackendEngine
+    :param target: The target URL for the backend.
+    :type target: str
+    :param model: The model used by the backend.
+    :type model: str
     """
 
     _registry: Dict[BackendEngine, "Type[Backend]"] = {}
@@ -96,6 +102,11 @@ def create(cls, backend_type: BackendEngine, **kwargs) -> "Backend":
 
         return Backend._registry[backend_type](**kwargs)
 
+    def __init__(self, type_: BackendEngine, target: str, model: str):
+        self._type = type_
+        self._target = target
+        self._model = model
+
     @property
     def default_model(self) -> str:
         """
@@ -107,6 +118,36 @@ def default_model(self) -> str:
         """
         return _cachable_default_model(self)
 
+    @property
+    def type_(self) -> BackendEngine:
+        """
+        Get the type of the backend.
+
+        :return: The type of the backend.
+        :rtype: BackendEngine
+        """
+        return self._type
+
+    @property
+    def target(self) -> str:
+        """
+        Get the target URL for the backend.
+
+        :return: The target URL.
+        :rtype: str
+        """
+        return self._target
+
+    @property
+    def model(self) -> str:
+        """
+        Get the model used by the backend.
+
+        :return: The model name.
+        :rtype: str
+        """
+        return self._model
+
     async def submit(self, request: TextGenerationRequest) -> TextGenerationResult:
         """
         Submit a text generation request and return the result.
 
@@ -45,10 +45,19 @@ def __init__(
         self._request_args: Dict = request_args
         api_key: str = openai_api_key or settings.openai.api_key
 
+        if not api_key:
+            err = ValueError(
+                "`GUIDELLM__OPENAI__API_KEY` environment variable or "
+                "--openai-api-key CLI parameter must be specified for the "
+                "OpenAI backend."
+            )
+            logger.error("{}", err)
+            raise err
+
         if target:
             base_url = target
         elif host and port:
-            base_url = f"{host}:{port}"
+            base_url = f"{host}:{port}/v1"
         elif settings.openai.base_url:
             base_url = settings.openai.base_url
         else:
@@ -61,22 +70,11 @@ def __init__(
 
         self._async_client = AsyncOpenAI(api_key=api_key, base_url=base_url)
         self._client = OpenAI(api_key=api_key, base_url=base_url)
-
-        self.validate_connection()
         self._model = model or self.default_model
 
+        super().__init__(type_="openai_server", target=base_url, model=self._model)
         logger.info("OpenAI {} Backend listening on {}", self._model, base_url)
 
-    @property
-    def model(self) -> str:
-        """
-        Get the model used by this backend.
-
-        :return: The model name.
-        :rtype: str
-        """
-        return self._model
-
     async def make_request(
         self,
         request: TextGenerationRequest,
 
@@ -43,7 +43,7 @@ class LoggingSettings(BaseModel):
 
     disabled: bool = False
     clear_loggers: bool = True
-    console_log_level: str = "INFO"
+    console_log_level: str = "WARNING"
     log_file: Optional[str] = None
     log_file_level: Optional[str] = None
 
@@ -98,7 +98,7 @@ class OpenAISettings(BaseModel):
     """
 
     # OpenAI API key.
-    api_key: str = ""
+    api_key: str = "invalid_token"
 
     # OpenAI-compatible server URL
     # NOTE: The default value is default address of llama.cpp web server
@@ -141,8 +141,8 @@ class Settings(BaseSettings):
     # general settings
     env: Environment = Environment.PROD
     request_timeout: int = 30
-    max_concurrency: int = 128
-    num_sweep_profiles: int = 10
+    max_concurrency: int = 512
+    num_sweep_profiles: int = 9
     logging: LoggingSettings = LoggingSettings()
 
     # Data settings
Original file line number	Diff line number	Diff line change
`@@ -35,6 +35,7 @@ dependencies = [`
`35`	`35`	`"pydantic-settings>=2.0.0",`
`36`	`36`	`"pyyaml>=6.0.0",`
`37`	`37`	`"requests",`
	`38`	`+ "rich",`
`38`	`39`	`"transformers",`
`39`	`40`	`]`
`40`	`41`
`@@ -182,6 +183,7 @@ select = [`
`182`	`183`	`"N806", # allow uppercase variable names in tests`
`183`	`184`	`"PGH003", # allow general ignores in tests`
`184`	`185`	`"S106", # allow hardcoded passwords in tests`
	`186`	`+ "PLR0915", # allow complext statements in tests`
`185`	`187`	`]`
`186`	`188`
`187`	`189`	`[tool.ruff.lint.isort]`