update sdk version (#94)

axl1313 · web-flow · commit b719c6f2467a · 2025-06-24T15:03:08.000-07:00
* update sdk version for updated types

* bump version + update changelog
diff --git a/CHANGELOG.md b/CHANGELOG.md
@@ -7,6 +7,10 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 
 ## [Unreleased]
 
+## [1.0.23] 2025-06-24
+
+- Update sdk version
+
 ## [1.0.22] 2025-06-23
 
 - Remove quality_preset arg
@@ -108,7 +112,8 @@ and this project adheres to [Semantic Versioning](https://semver.org/spec/v2.0.0
 
 - Initial release of the `cleanlab-codex` client library.
 
-[Unreleased]: https://github.com/cleanlab/cleanlab-codex/compare/v1.0.22...HEAD
+[Unreleased]: https://github.com/cleanlab/cleanlab-codex/compare/v1.0.23...HEAD
+[1.0.23]: https://github.com/cleanlab/cleanlab-codex/compare/v1.0.22...v1.0.23
 [1.0.22]: https://github.com/cleanlab/cleanlab-codex/compare/v1.0.21...v1.0.22
 [1.0.21]: https://github.com/cleanlab/cleanlab-codex/compare/v1.0.20...v1.0.21
 [1.0.20]: https://github.com/cleanlab/cleanlab-codex/compare/v1.0.19...v1.0.20
diff --git a/pyproject.toml b/pyproject.toml
@@ -26,7 +26,7 @@ classifiers = [
 ]
 dependencies = [
   "cleanlab-tlm~=1.1",
-  "codex-sdk==0.1.0a21",
+  "codex-sdk==0.1.0a22",
   "pydantic>=2.0.0, <3",
 ]
 
diff --git a/src/cleanlab_codex/__about__.py b/src/cleanlab_codex/__about__.py
@@ -1,2 +1,2 @@
 # SPDX-License-Identifier: MIT
-__version__ = "1.0.22"
+__version__ = "1.0.23"
diff --git a/tests/test_validator.py b/tests/test_validator.py
@@ -15,9 +15,21 @@ def mock_project() -> Generator[Mock, None, None]:
             is_bad_response=True,
             expert_answer=None,
             eval_scores={
-                "response_helpfulness": EvalScores(score=0.95, failed=False),
-                "trustworthiness": EvalScores(score=0.5, failed=True),
+                "response_helpfulness": EvalScores(
+                    score=0.95,
+                    triggered=False,
+                    triggered_escalation=False,
+                    triggered_guardrail=False,
+                ),
+                "trustworthiness": EvalScores(
+                    score=0.5,
+                    triggered=True,
+                    triggered_escalation=True,
+                    triggered_guardrail=True,
+                ),
             },
+            escalated_to_sme=True,
+            should_guardrail=True,
         )
         mock.from_access_key.return_value = mock_obj
         yield mock
@@ -31,9 +43,21 @@ def mock_project_with_custom_thresholds() -> Generator[Mock, None, None]:
             is_bad_response=False,
             expert_answer=None,
             eval_scores={
-                "response_helpfulness": EvalScores(score=0.95, failed=False),
-                "trustworthiness": EvalScores(score=0.5, failed=False),
+                "response_helpfulness": EvalScores(
+                    score=0.95,
+                    triggered=False,
+                    triggered_escalation=False,
+                    triggered_guardrail=False,
+                ),
+                "trustworthiness": EvalScores(
+                    score=0.5,
+                    triggered=False,
+                    triggered_escalation=False,
+                    triggered_guardrail=False,
+                ),
             },
+            escalated_to_sme=False,
+            should_guardrail=False,
         )
         mock.from_access_key.return_value = mock_obj
         yield mock
@@ -66,9 +90,21 @@ def test_validate_expert_answer(self, mock_project: Mock) -> None:
             is_bad_response=True,
             expert_answer="expert answer",
             eval_scores={
-                "response_helpfulness": EvalScores(score=0.95, failed=False),
-                "trustworthiness": EvalScores(score=0.5, failed=True),
+                "response_helpfulness": EvalScores(
+                    score=0.95,
+                    triggered=False,
+                    triggered_escalation=False,
+                    triggered_guardrail=False,
+                ),
+                "trustworthiness": EvalScores(
+                    score=0.5,
+                    triggered=True,
+                    triggered_escalation=True,
+                    triggered_guardrail=True,
+                ),
             },
+            escalated_to_sme=True,
+            should_guardrail=True,
         )
         # Basically any response will be flagged as untrustworthy
         result = validator.validate(query="test query", context="test context", response="test response")

Original file line number	Diff line number	Diff line change
`@@ -26,7 +26,7 @@ classifiers = [`
`26`	`26`	`]`
`27`	`27`	`dependencies = [`
`28`	`28`	`"cleanlab-tlm~=1.1",`
`29`		`- "codex-sdk==0.1.0a21",`
	`29`	`+ "codex-sdk==0.1.0a22",`
`30`	`30`	`"pydantic>=2.0.0, <3",`
`31`	`31`	`]`
`32`	`32`
Original file line number	Diff line number	Diff line change
`@@ -1,2 +1,2 @@`
`1`	`1`	`# SPDX-License-Identifier: MIT`
`2`		`-__version__ = "1.0.22"`
	`2`	`+__version__ = "1.0.23"`