Add token usage metrics to InstrumentedModel (#1898)

alexmojaki · web-flow · commit 4f257bd923f3 · 2025-06-09T14:16:31.000+02:00
diff --git a/pydantic_ai_slim/pydantic_ai/models/instrumented.py b/pydantic_ai_slim/pydantic_ai/models/instrumented.py
@@ -13,6 +13,7 @@
     EventLoggerProvider,  # pyright: ignore[reportPrivateImportUsage]
     get_event_logger_provider,  # pyright: ignore[reportPrivateImportUsage]
 )
+from opentelemetry.metrics import MeterProvider, get_meter_provider
 from opentelemetry.trace import Span, Tracer, TracerProvider, get_tracer_provider
 from opentelemetry.util.types import AttributeValue
 from pydantic import TypeAdapter
@@ -49,6 +50,10 @@
 
 ANY_ADAPTER = TypeAdapter[Any](Any)
 
+# These are in the spec:
+# https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/#metric-gen_aiclienttokenusage
+TOKEN_HISTOGRAM_BOUNDARIES = (1, 4, 16, 64, 256, 1024, 4096, 16384, 65536, 262144, 1048576, 4194304, 16777216, 67108864)
+
 
 def instrument_model(model: Model, instrument: InstrumentationSettings | bool) -> Model:
     """Instrument a model with OpenTelemetry/logfire."""
@@ -84,6 +89,7 @@ def __init__(
         *,
         event_mode: Literal['attributes', 'logs'] = 'attributes',
         tracer_provider: TracerProvider | None = None,
+        meter_provider: MeterProvider | None = None,
         event_logger_provider: EventLoggerProvider | None = None,
         include_binary_content: bool = True,
     ):
@@ -95,6 +101,9 @@ def __init__(
             tracer_provider: The OpenTelemetry tracer provider to use.
                 If not provided, the global tracer provider is used.
                 Calling `logfire.configure()` sets the global tracer provider, so most users don't need this.
+            meter_provider: The OpenTelemetry meter provider to use.
+                If not provided, the global meter provider is used.
+                Calling `logfire.configure()` sets the global meter provider, so most users don't need this.
             event_logger_provider: The OpenTelemetry event logger provider to use.
                 If not provided, the global event logger provider is used.
                 Calling `logfire.configure()` sets the global event logger provider, so most users don't need this.
@@ -104,12 +113,33 @@ def __init__(
         from pydantic_ai import __version__
 
         tracer_provider = tracer_provider or get_tracer_provider()
+        meter_provider = meter_provider or get_meter_provider()
         event_logger_provider = event_logger_provider or get_event_logger_provider()
-        self.tracer = tracer_provider.get_tracer('pydantic-ai', __version__)
-        self.event_logger = event_logger_provider.get_event_logger('pydantic-ai', __version__)
+        scope_name = 'pydantic-ai'
+        self.tracer = tracer_provider.get_tracer(scope_name, __version__)
+        self.meter = meter_provider.get_meter(scope_name, __version__)
+        self.event_logger = event_logger_provider.get_event_logger(scope_name, __version__)
         self.event_mode = event_mode
         self.include_binary_content = include_binary_content
 
+        # As specified in the OpenTelemetry GenAI metrics spec:
+        # https://opentelemetry.io/docs/specs/semconv/gen-ai/gen-ai-metrics/#metric-gen_aiclienttokenusage
+        tokens_histogram_kwargs = dict(
+            name='gen_ai.client.token.usage',
+            unit='{token}',
+            description='Measures number of input and output tokens used',
+        )
+        try:
+            self.tokens_histogram = self.meter.create_histogram(
+                **tokens_histogram_kwargs,
+                explicit_bucket_boundaries_advisory=TOKEN_HISTOGRAM_BOUNDARIES,
+            )
+        except TypeError:
+            # Older OTel/logfire versions don't support explicit_bucket_boundaries_advisory
+            self.tokens_histogram = self.meter.create_histogram(
+                **tokens_histogram_kwargs,  # pyright: ignore
+            )
+
     def messages_to_otel_events(self, messages: list[ModelMessage]) -> list[Event]:
         """Convert a list of model messages to OpenTelemetry events.
 
@@ -224,38 +254,74 @@ def _instrument(
                 if isinstance(value := model_settings.get(key), (float, int)):
                     attributes[f'gen_ai.request.{key}'] = value
 
-        with self.settings.tracer.start_as_current_span(span_name, attributes=attributes) as span:
-
-            def finish(response: ModelResponse):
-                if not span.is_recording():
-                    return
-
-                events = self.settings.messages_to_otel_events(messages)
-                for event in self.settings.messages_to_otel_events([response]):
-                    events.append(
-                        Event(
-                            'gen_ai.choice',
-                            body={
-                                # TODO finish_reason
-                                'index': 0,
-                                'message': event.body,
-                            },
+        record_metrics: Callable[[], None] | None = None
+        try:
+            with self.settings.tracer.start_as_current_span(span_name, attributes=attributes) as span:
+
+                def finish(response: ModelResponse):
+                    # FallbackModel updates these span attributes.
+                    attributes.update(getattr(span, 'attributes', {}))
+                    request_model = attributes[GEN_AI_REQUEST_MODEL_ATTRIBUTE]
+                    system = attributes[GEN_AI_SYSTEM_ATTRIBUTE]
+
+                    response_model = response.model_name or request_model
+
+                    def _record_metrics():
+                        metric_attributes = {
+                            GEN_AI_SYSTEM_ATTRIBUTE: system,
+                            'gen_ai.operation.name': operation,
+                            'gen_ai.request.model': request_model,
+                            'gen_ai.response.model': response_model,
+                        }
+                        if response.usage.request_tokens:  # pragma: no branch
+                            self.settings.tokens_histogram.record(
+                                response.usage.request_tokens,
+                                {**metric_attributes, 'gen_ai.token.type': 'input'},
+                            )
+                        if response.usage.response_tokens:  # pragma: no branch
+                            self.settings.tokens_histogram.record(
+                                response.usage.response_tokens,
+                                {**metric_attributes, 'gen_ai.token.type': 'output'},
+                            )
+
+                    nonlocal record_metrics
+                    record_metrics = _record_metrics
+
+                    if not span.is_recording():
+                        return
+
+                    events = self.settings.messages_to_otel_events(messages)
+                    for event in self.settings.messages_to_otel_events([response]):
+                        events.append(
+                            Event(
+                                'gen_ai.choice',
+                                body={
+                                    # TODO finish_reason
+                                    'index': 0,
+                                    'message': event.body,
+                                },
+                            )
                         )
+                    span.set_attributes(
+                        {
+                            **response.usage.opentelemetry_attributes(),
+                            'gen_ai.response.model': response_model,
+                        }
                     )
-                new_attributes: dict[str, AttributeValue] = response.usage.opentelemetry_attributes()  # pyright: ignore[reportAssignmentType]
-                attributes.update(getattr(span, 'attributes', {}))
-                request_model = attributes[GEN_AI_REQUEST_MODEL_ATTRIBUTE]
-                new_attributes['gen_ai.response.model'] = response.model_name or request_model
-                span.set_attributes(new_attributes)
-                span.update_name(f'{operation} {request_model}')
-                for event in events:
-                    event.attributes = {
-                        GEN_AI_SYSTEM_ATTRIBUTE: attributes[GEN_AI_SYSTEM_ATTRIBUTE],
-                        **(event.attributes or {}),
-                    }
-                self._emit_events(span, events)
-
-            yield finish
+                    span.update_name(f'{operation} {request_model}')
+                    for event in events:
+                        event.attributes = {
+                            GEN_AI_SYSTEM_ATTRIBUTE: system,
+                            **(event.attributes or {}),
+                        }
+                    self._emit_events(span, events)
+
+                yield finish
+        finally:
+            if record_metrics:
+                # We only want to record metrics after the span is finished,
+                # to prevent them from being redundantly recorded in the span itself by logfire.
+                record_metrics()
 
     def _emit_events(self, span: Span, events: list[Event]) -> None:
         if self.settings.event_mode == 'logs':
diff --git a/tests/test_logfire.py b/tests/test_logfire.py
@@ -4,7 +4,7 @@
 from typing import Any, Callable
 
 import pytest
-from dirty_equals import IsJson
+from dirty_equals import IsInt, IsJson, IsList
 from inline_snapshot import snapshot
 from typing_extensions import NotRequired, TypedDict
 
@@ -71,7 +71,11 @@ def get_summary() -> LogfireSummary:
         InstrumentationSettings(event_mode='logs'),
     ],
 )
-def test_logfire(get_logfire_summary: Callable[[], LogfireSummary], instrument: InstrumentationSettings | bool) -> None:
+def test_logfire(
+    get_logfire_summary: Callable[[], LogfireSummary],
+    instrument: InstrumentationSettings | bool,
+    capfire: CaptureLogfire,
+) -> None:
     my_agent = Agent(model=TestModel(), instrument=instrument)
 
     @my_agent.tool_plain
@@ -167,6 +171,70 @@ async def my_ret(x: int) -> str:
     )
     chat_span_attributes = summary.attributes[1]
     if instrument is True or instrument.event_mode == 'attributes':
+        if hasattr(capfire, 'get_collected_metrics'):
+            assert capfire.get_collected_metrics() == snapshot(
+                [
+                    {
+                        'name': 'gen_ai.client.token.usage',
+                        'description': 'Measures number of input and output tokens used',
+                        'unit': '{token}',
+                        'data': {
+                            'data_points': [
+                                {
+                                    'attributes': {
+                                        'gen_ai.system': 'test',
+                                        'gen_ai.operation.name': 'chat',
+                                        'gen_ai.request.model': 'test',
+                                        'gen_ai.response.model': 'test',
+                                        'gen_ai.token.type': 'input',
+                                    },
+                                    'start_time_unix_nano': IsInt(),
+                                    'time_unix_nano': IsInt(),
+                                    'count': 2,
+                                    'sum': 103,
+                                    'scale': 12,
+                                    'zero_count': 0,
+                                    'positive': {
+                                        'offset': 23234,
+                                        'bucket_counts': IsList(length=...),  # type: ignore
+                                    },
+                                    'negative': {'offset': 0, 'bucket_counts': [0]},
+                                    'flags': 0,
+                                    'min': 51,
+                                    'max': 52,
+                                    'exemplars': IsList(length=...),  # type: ignore
+                                },
+                                {
+                                    'attributes': {
+                                        'gen_ai.system': 'test',
+                                        'gen_ai.operation.name': 'chat',
+                                        'gen_ai.request.model': 'test',
+                                        'gen_ai.response.model': 'test',
+                                        'gen_ai.token.type': 'output',
+                                    },
+                                    'start_time_unix_nano': IsInt(),
+                                    'time_unix_nano': IsInt(),
+                                    'count': 2,
+                                    'sum': 12,
+                                    'scale': 7,
+                                    'zero_count': 0,
+                                    'positive': {
+                                        'offset': 255,
+                                        'bucket_counts': IsList(length=...),  # type: ignore
+                                    },
+                                    'negative': {'offset': 0, 'bucket_counts': [0]},
+                                    'flags': 0,
+                                    'min': 4,
+                                    'max': 8,
+                                    'exemplars': IsList(length=...),  # type: ignore
+                                },
+                            ],
+                            'aggregation_temporality': 1,
+                        },
+                    }
+                ]
+            )
+
         attribute_mode_attributes = {k: chat_span_attributes.pop(k) for k in ['events']}
         assert attribute_mode_attributes == snapshot(
             {
@@ -450,8 +518,7 @@ async def test_feedback(capfire: CaptureLogfire) -> None:
                     'factuality': 0.1,
                     'foo': 'bar',
                     'logfire.feedback.comment': 'the agent lied',
-                    'logfire.disable_console_log': True,
-                    'logfire.json_schema': '{"type":"object","properties":{"logfire.feedback.name":{},"factuality":{},"foo":{},"logfire.feedback.comment":{},"logfire.span_type":{},"logfire.disable_console_log":{}}}',
+                    'logfire.json_schema': '{"type":"object","properties":{"logfire.feedback.name":{},"factuality":{},"foo":{},"logfire.feedback.comment":{},"logfire.span_type":{}}}',
                 },
             },
         ]
diff --git a/uv.lock b/uv.lock