triton-inference-server
diff --git a/‎include/triton/core/tritonserver.h
Lines changed: 16 additions & 2 deletions b/‎include/triton/core/tritonserver.h
Lines changed: 16 additions & 2 deletions
diff --git a/‎src/backend_model_instance.cc
Lines changed: 7 additions & 2 deletions b/‎src/backend_model_instance.cc
Lines changed: 7 additions & 2 deletions
diff --git a/‎src/dynamic_batch_scheduler.cc
Lines changed: 2 additions & 4 deletions b/‎src/dynamic_batch_scheduler.cc
Lines changed: 2 additions & 4 deletions
diff --git a/‎src/ensemble_scheduler.cc
Lines changed: 4 additions & 1 deletion b/‎src/ensemble_scheduler.cc
Lines changed: 4 additions & 1 deletion
diff --git a/‎src/infer_stats.cc
Lines changed: 59 additions & 27 deletions b/‎src/infer_stats.cc
Lines changed: 59 additions & 27 deletions
@@ -91,7 +91,7 @@ struct TRITONSERVER_MetricFamily;
 ///   }
 ///
 #define TRITONSERVER_API_VERSION_MAJOR 1
-#define TRITONSERVER_API_VERSION_MINOR 21
+#define TRITONSERVER_API_VERSION_MINOR 22
 
 /// Get the TRITONBACKEND API version supported by the Triton shared
 /// library. This value can be compared against the
@@ -1301,7 +1301,8 @@ TRITONSERVER_InferenceRequestSetStringParameter(
 /// \return a TRITONSERVER_Error indicating success or failure.
 TRITONSERVER_DECLSPEC TRITONSERVER_Error*
 TRITONSERVER_InferenceRequestSetIntParameter(
-    TRITONSERVER_InferenceRequest* request, const char* key, const int64_t value);
+    TRITONSERVER_InferenceRequest* request, const char* key,
+    const int64_t value);
 
 /// Set a boolean parameter in the request.
 ///
@@ -2011,6 +2012,19 @@ TRITONSERVER_ServerOptionsSetHostPolicy(
     TRITONSERVER_ServerOptions* options, const char* policy_name,
     const char* setting, const char* value);
 
+/// Set a configuration setting for metrics in server options.
+///
+/// \param options The server options object.
+/// \param name The name of the configuration group. An empty string indicates
+///             a global configuration option.
+/// \param setting The name of the setting.
+/// \param value The setting value.
+/// \return a TRITONSERVER_Error indicating success or failure.
+TRITONSERVER_DECLSPEC TRITONSERVER_Error*
+TRITONSERVER_ServerOptionsSetMetricsConfig(
+    TRITONSERVER_ServerOptions* options, const char* name, const char* setting,
+    const char* value);
+
 /// TRITONSERVER_Server
 ///
 /// An inference server.
 
@@ -157,9 +157,14 @@ TritonModelInstance::TritonModelInstance(
     const int id = (kind_ == TRITONSERVER_INSTANCEGROUPKIND_GPU)
                        ? device_id_
                        : METRIC_REPORTER_ID_CPU;
+    // Let every metric reporter know if caching is enabled to correctly include
+    // cache miss time into request duration on cache misses.
+    const bool response_cache_enabled =
+        model_->Config().response_cache().enable() &&
+        model_->Server()->ResponseCacheEnabled();
     MetricModelReporter::Create(
-        model_->Name(), model_->Version(), id, model_->Config().metric_tags(),
-        &reporter_);
+        model_->Name(), model_->Version(), id, response_cache_enabled,
+        model_->Config().metric_tags(), &reporter_);
   }
 #endif  // TRITON_ENABLE_METRICS
 }
 
@@ -80,15 +80,13 @@ DynamicBatchScheduler::DynamicBatchScheduler(
   // Both the server and model config should specify
   // caching enabled for model to utilize response cache.
   response_cache_enabled_ =
-      (response_cache_enable && model_->Server()->ResponseCacheEnabled() &&
-       model_->Server()->CacheManager() &&
-       model_->Server()->CacheManager()->Cache());
+      response_cache_enable && model_->Server()->ResponseCacheEnabled();
 #ifdef TRITON_ENABLE_METRICS
   // Initialize metric reporter for cache statistics if cache enabled
   if (response_cache_enabled_) {
     MetricModelReporter::Create(
         model_name_, model_->Version(), METRIC_REPORTER_ID_RESPONSE_CACHE,
-        model_->Config().metric_tags(), &reporter_);
+        response_cache_enabled_, model_->Config().metric_tags(), &reporter_);
   }
 #endif  // TRITON_ENABLE_METRICS
   max_preferred_batch_size_ = 0;
 
@@ -1316,8 +1316,11 @@ EnsembleScheduler::EnsembleScheduler(
 
 #ifdef TRITON_ENABLE_METRICS
   if (Metrics::Enabled()) {
+    // Ensemble scheduler doesn't currently support response cache at top level.
     MetricModelReporter::Create(
-        config.name(), 1, METRIC_REPORTER_ID_CPU, config.metric_tags(),
+        config.name(), 1, METRIC_REPORTER_ID_CPU, 
+        false /* response_cache_enabled */,
+        config.metric_tags(),
         &metric_reporter_);
   }
 #endif  // TRITON_ENABLE_METRICS
 
@@ -47,7 +47,7 @@ InferenceStatsAggregator::UpdateFailure(
 
 #ifdef TRITON_ENABLE_METRICS
   if (metric_reporter != nullptr) {
-    metric_reporter->MetricInferenceFailure().Increment(1);
+    metric_reporter->IncrementCounter("inf_failure", 1);
   }
 #endif  // TRITON_ENABLE_METRICS
 }
@@ -97,18 +97,33 @@ InferenceStatsAggregator::UpdateSuccessWithDuration(
 
 #ifdef TRITON_ENABLE_METRICS
   if (metric_reporter != nullptr) {
-    metric_reporter->MetricInferenceSuccess().Increment(1);
-    metric_reporter->MetricInferenceCount().Increment(batch_size);
-    metric_reporter->MetricInferenceRequestDuration().Increment(
-        request_duration_ns / 1000);
-    metric_reporter->MetricInferenceQueueDuration().Increment(
-        queue_duration_ns / 1000);
-    metric_reporter->MetricInferenceComputeInputDuration().Increment(
-        compute_input_duration_ns / 1000);
-    metric_reporter->MetricInferenceComputeInferDuration().Increment(
-        compute_infer_duration_ns / 1000);
-    metric_reporter->MetricInferenceComputeOutputDuration().Increment(
-        compute_output_duration_ns / 1000);
+    metric_reporter->IncrementCounter("inf_success", 1);
+    metric_reporter->IncrementCounter("inf_count", batch_size);
+    // Counter Latencies
+    metric_reporter->IncrementCounter(
+        "request_duration", request_duration_ns / 1000);
+    metric_reporter->IncrementCounter(
+        "queue_duration", queue_duration_ns / 1000);
+    metric_reporter->IncrementCounter(
+        "compute_input_duration", compute_input_duration_ns / 1000);
+    metric_reporter->IncrementCounter(
+        "compute_infer_duration", compute_infer_duration_ns / 1000);
+    metric_reporter->IncrementCounter(
+        "compute_output_duration", compute_output_duration_ns / 1000);
+    // Summary Latencies
+    const auto& reporter_config = metric_reporter->Config();
+    // FIXME [DLIS-4762]: request summary is disabled when cache is enabled.
+    if (!reporter_config.cache_enabled_) {
+      metric_reporter->ObserveSummary(
+          "request_duration", request_duration_ns / 1000);
+    }
+    metric_reporter->ObserveSummary("queue_duration", queue_duration_ns / 1000);
+    metric_reporter->ObserveSummary(
+        "compute_input_duration", compute_input_duration_ns / 1000);
+    metric_reporter->ObserveSummary(
+        "compute_infer_duration", compute_infer_duration_ns / 1000);
+    metric_reporter->ObserveSummary(
+        "compute_output_duration", compute_output_duration_ns / 1000);
   }
 #endif  // TRITON_ENABLE_METRICS
 }
@@ -136,14 +151,23 @@ InferenceStatsAggregator::UpdateSuccessCacheHit(
 
 #ifdef TRITON_ENABLE_METRICS
   if (metric_reporter != nullptr) {
-    metric_reporter->MetricInferenceSuccess().Increment(1);
-    metric_reporter->MetricInferenceRequestDuration().Increment(
-        request_duration_ns / 1000);
-    metric_reporter->MetricInferenceQueueDuration().Increment(
-        queue_duration_ns / 1000);
-    metric_reporter->MetricCacheHitCount().Increment(1);
-    metric_reporter->MetricCacheHitDuration().Increment(
-        cache_hit_duration_ns / 1000);
+    // inf_count not recorded on a cache hit
+    metric_reporter->IncrementCounter("inf_success", 1);
+    // Counter Latencies
+    metric_reporter->IncrementCounter(
+        "request_duration", request_duration_ns / 1000);
+    metric_reporter->IncrementCounter(
+        "queue_duration", queue_duration_ns / 1000);
+    metric_reporter->IncrementCounter("cache_hit_count", 1);
+    metric_reporter->IncrementCounter(
+        "cache_hit_duration", cache_hit_duration_ns / 1000);
+    // Summary Latencies
+    // FIXME [DLIS-4762]: request summary is disabled when cache is enabled.
+    // metric_reporter->ObserveSummary(
+    //    "request_duration", request_duration_ns / 1000);
+    metric_reporter->ObserveSummary("queue_duration", queue_duration_ns / 1000);
+    metric_reporter->ObserveSummary(
+        "cache_hit_duration", cache_hit_duration_ns / 1000);
   }
 #endif  // TRITON_ENABLE_METRICS
 }
@@ -168,11 +192,19 @@ InferenceStatsAggregator::UpdateSuccessCacheMiss(
     // happens after inference backend sets the request duration, and
     // cache lookup time was already included before the inference backend
     // was called
-    metric_reporter->MetricInferenceRequestDuration().Increment(
-        cache_miss_duration_ns / 1000);
-    metric_reporter->MetricCacheMissCount().Increment(1);
-    metric_reporter->MetricCacheMissDuration().Increment(
-        cache_miss_duration_ns / 1000);
+    metric_reporter->IncrementCounter(
+        "request_duration", cache_miss_duration_ns / 1000);
+    metric_reporter->IncrementCounter("cache_miss_count", 1);
+    metric_reporter->IncrementCounter(
+        "cache_miss_duration", cache_miss_duration_ns / 1000);
+
+    // FIXME [DLIS-4762]: request summary is disabled when cache is enabled.
+    //       Need to account for adding cache miss duration on top of
+    //       request_duration from backend within a single observation.
+    // metric_reporter->ObserveSummary(
+    //    "request_duration", cache_miss_duration_ns / 1000);
+    metric_reporter->ObserveSummary(
+        "cache_miss_duration", cache_miss_duration_ns / 1000);
   }
 #endif  // TRITON_ENABLE_METRICS
 }
@@ -223,7 +255,7 @@ InferenceStatsAggregator::UpdateInferBatchStatsWithDuration(
 
 #ifdef TRITON_ENABLE_METRICS
   if (metric_reporter != nullptr) {
-    metric_reporter->MetricInferenceExecutionCount().Increment(1);
+    metric_reporter->IncrementCounter("inf_exec_count", 1);
   }
 #endif  // TRITON_ENABLE_METRICS
 }