Lint

Smartappli · web-flow · commit 8aae02619da3 · 2024-08-02T17:55:10.000+02:00
diff --git a/llama_cpp/_internals.py b/llama_cpp/_internals.py
@@ -1,26 +1,23 @@
 from __future__ import annotations
 
-import os
 import ctypes
-
+import os
+from contextlib import ExitStack
+from dataclasses import dataclass, field
 from typing import (
     Dict,
     List,
     Optional,
     Sequence,
 )
-from dataclasses import dataclass, field
-from contextlib import ExitStack
 
 import numpy as np
 import numpy.typing as npt
 
-from .llama_types import *
-from .llama_grammar import LlamaGrammar
+from llama_cpp import llama_cpp
 from ._utils import suppress_stdout_stderr
-
-import llama_cpp.llama_cpp as llama_cpp
-
+from .llama_grammar import LlamaGrammar
+from .llama_types import *
 
 # Python wrappers over llama.h structs
 
@@ -351,7 +348,7 @@ def get_state_size(self) -> int:
 
     # TODO: llama_save_session_file
 
-    def decode(self, batch: "_LlamaBatch"):
+    def decode(self, batch: _LlamaBatch):
         assert self.ctx is not None
         assert batch.batch is not None
         return_code = llama_cpp.llama_decode(
@@ -385,8 +382,8 @@ def set_rng_seed(self, seed: int):
 
     def sample_repetition_penalties(
         self,
-        candidates: "_LlamaTokenDataArray",
-        last_tokens_data: "llama_cpp.Array[llama_cpp.llama_token]",
+        candidates: _LlamaTokenDataArray,
+        last_tokens_data: llama_cpp.Array[llama_cpp.llama_token],
         penalty_last_n: int,
         penalty_repeat: float,
         penalty_freq: float,
@@ -403,54 +400,54 @@ def sample_repetition_penalties(
             penalty_present,
         )
 
-    def sample_softmax(self, candidates: "_LlamaTokenDataArray"):
+    def sample_softmax(self, candidates: _LlamaTokenDataArray):
         assert self.ctx is not None
         llama_cpp.llama_sample_softmax(
             self.ctx,
             llama_cpp.byref(candidates.candidates),
         )
 
-    def sample_top_k(self, candidates: "_LlamaTokenDataArray", k: int, min_keep: int):
+    def sample_top_k(self, candidates: _LlamaTokenDataArray, k: int, min_keep: int):
         assert self.ctx is not None
         llama_cpp.llama_sample_top_k(
             self.ctx, llama_cpp.byref(candidates.candidates), k, min_keep
         )
 
-    def sample_top_p(self, candidates: "_LlamaTokenDataArray", p: float, min_keep: int):
+    def sample_top_p(self, candidates: _LlamaTokenDataArray, p: float, min_keep: int):
         assert self.ctx is not None
         llama_cpp.llama_sample_top_p(
             self.ctx, llama_cpp.byref(candidates.candidates), p, min_keep
         )
 
-    def sample_min_p(self, candidates: "_LlamaTokenDataArray", p: float, min_keep: int):
+    def sample_min_p(self, candidates: _LlamaTokenDataArray, p: float, min_keep: int):
         assert self.ctx is not None
         llama_cpp.llama_sample_min_p(
             self.ctx, llama_cpp.byref(candidates.candidates), p, min_keep
         )
 
     def sample_tail_free(
-        self, candidates: "_LlamaTokenDataArray", z: float, min_keep: int
+        self, candidates: _LlamaTokenDataArray, z: float, min_keep: int
     ):
         assert self.ctx is not None
         llama_cpp.llama_sample_tail_free(
             self.ctx, llama_cpp.byref(candidates.candidates), z, min_keep
         )
 
     def sample_typical(
-        self, candidates: "_LlamaTokenDataArray", p: float, min_keep: int
+        self, candidates: _LlamaTokenDataArray, p: float, min_keep: int
     ):
         assert self.ctx is not None
         llama_cpp.llama_sample_typical(
             self.ctx, llama_cpp.byref(candidates.candidates), p, min_keep
         )
 
-    def sample_temp(self, candidates: "_LlamaTokenDataArray", temp: float):
+    def sample_temp(self, candidates: _LlamaTokenDataArray, temp: float):
         assert self.ctx is not None
         llama_cpp.llama_sample_temp(
             self.ctx, llama_cpp.byref(candidates.candidates), temp
         )
 
-    def sample_grammar(self, candidates: "_LlamaTokenDataArray", grammar: LlamaGrammar):
+    def sample_grammar(self, candidates: _LlamaTokenDataArray, grammar: LlamaGrammar):
         assert self.ctx is not None
         assert grammar.grammar is not None
         llama_cpp.llama_sample_grammar(
@@ -461,7 +458,7 @@ def sample_grammar(self, candidates: "_LlamaTokenDataArray", grammar: LlamaGramm
 
     def sample_token_mirostat(
         self,
-        candidates: "_LlamaTokenDataArray",
+        candidates: _LlamaTokenDataArray,
         tau: float,
         eta: float,
         m: int,
@@ -493,14 +490,14 @@ def sample_token_mirostat_v2(
             mu,
         )
 
-    def sample_token_greedy(self, candidates: "_LlamaTokenDataArray") -> int:
+    def sample_token_greedy(self, candidates: _LlamaTokenDataArray) -> int:
         assert self.ctx is not None
         return llama_cpp.llama_sample_token_greedy(
             self.ctx,
             llama_cpp.byref(candidates.candidates),
         )
 
-    def sample_token(self, candidates: "_LlamaTokenDataArray") -> int:
+    def sample_token(self, candidates: _LlamaTokenDataArray) -> int:
         assert self.ctx is not None
         return llama_cpp.llama_sample_token(
             self.ctx,
@@ -822,44 +819,43 @@ def sample(
             id = token_data_array.candidates_data.id[0]
         elif self.params.temp == 0:
             id = ctx_main.sample_token_greedy(token_data_array)
+        elif self.params.mirostat == 1:
+            mirostat_m = 100
+            ctx_main.sample_temp(token_data_array, self.params.temp)
+            id = ctx_main.sample_token_mirostat(
+                token_data_array,
+                self.params.mirostat_tau,
+                self.params.mirostat_eta,
+                mirostat_m,
+                ctypes.pointer(self.mirostat_mu),
+            )
+        elif self.params.mirostat == 2:
+            ctx_main.sample_temp(token_data_array, self.params.temp)
+            id = ctx_main.sample_token_mirostat_v2(
+                token_data_array,
+                self.params.mirostat_tau,
+                self.params.mirostat_eta,
+                ctypes.pointer(self.mirostat_mu),
+            )     
         else:
-            if self.params.mirostat == 1:
-                mirostat_m = 100
-                ctx_main.sample_temp(token_data_array, self.params.temp)
-                id = ctx_main.sample_token_mirostat(
-                    token_data_array,
-                    self.params.mirostat_tau,
-                    self.params.mirostat_eta,
-                    mirostat_m,
-                    ctypes.pointer(self.mirostat_mu),
-                )
-            elif self.params.mirostat == 2:
-                ctx_main.sample_temp(token_data_array, self.params.temp)
-                id = ctx_main.sample_token_mirostat_v2(
-                    token_data_array,
-                    self.params.mirostat_tau,
-                    self.params.mirostat_eta,
-                    ctypes.pointer(self.mirostat_mu),
-                )
-            else:
-                min_keep = max(1, self.params.n_probs)
-                ctx_main.sample_top_k(
-                    token_data_array, self.params.top_k, min_keep=min_keep
-                )
-                ctx_main.sample_tail_free(
-                    token_data_array, self.params.tfs_z, min_keep=min_keep
-                )
-                ctx_main.sample_typical(
-                    token_data_array, self.params.typical_p, min_keep=min_keep
-                )
-                ctx_main.sample_top_p(
-                    token_data_array, self.params.top_p, min_keep=min_keep
-                )
-                ctx_main.sample_min_p(
-                    token_data_array, self.params.min_p, min_keep=min_keep
-                )
-                ctx_main.sample_temp(token_data_array, self.params.temp)
-                id = ctx_main.sample_token(token_data_array)
+            min_keep = max(1, self.params.n_probs)
+            ctx_main.sample_top_k(
+                token_data_array, self.params.top_k, min_keep=min_keep
+            )
+            ctx_main.sample_tail_free(
+                token_data_array, self.params.tfs_z, min_keep=min_keep
+            )
+            ctx_main.sample_typical(
+                token_data_array, self.params.typical_p, min_keep=min_keep
+            )
+            ctx_main.sample_top_p(
+                token_data_array, self.params.top_p, min_keep=min_keep
+            )
+            ctx_main.sample_min_p(
+                token_data_array, self.params.min_p, min_keep=min_keep
+            )
+            ctx_main.sample_temp(token_data_array, self.params.temp)
+            id = ctx_main.sample_token(token_data_array)
         return id
 
     def accept(self, ctx_main: _LlamaContext, id: int, apply_grammar: bool):