Fix Phi 4 tokenization (#153)

pcuenca · DePasqualeOrg · web-flow · commit a867fea9e42d · 2025-01-09T21:50:14.000+01:00
* Fix Phi 4 tokenization

* Fix: remove empty trailing pretokenized match

* Realistic pre-tokenizer tests, double-checked with transformers.js

* Couple more test cases

Co-authored-by: Anthony &lt;anthony@depasquale.org&gt;
diff --git a/Sources/Tokenizers/PreTokenizer.swift b/Sources/Tokenizers/PreTokenizer.swift
@@ -248,7 +248,7 @@ extension StringSplitPattern {
     func split(_ text: String, invert: Bool = true) -> [String] {
         switch self {
         case .regexp(let regexp):
-            return text.split(by: regexp, includeSeparators: !invert)
+            return text.split(by: regexp, includeSeparators: true)
         case .string(let substring):
             return text.split(by: substring, options: [], includeSeparators: !invert)
         }
@@ -292,7 +292,9 @@ public extension String {
             start = range.upperBound
         }
         
-        result.append(String(self[start...]))
+        if omittingEmptySubsequences && start < endIndex {
+            result.append(String(self[start...]))
+        }
         return result
     }
 
diff --git a/Tests/PreTokenizerTests/PreTokenizerTests.swift b/Tests/PreTokenizerTests/PreTokenizerTests.swift
@@ -119,7 +119,7 @@ class PreTokenizerTests: XCTestCase {
         )
         XCTAssertEqual(
             preTokenizer1.preTokenize(text: "   Hey,    friend,    what's up?  "),
-            [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " ", ""]
+            [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " "]
         )
 
         let preTokenizer2 = SplitPreTokenizer(config: Config(["pattern": ["Regex": "\\s"]]))
@@ -133,21 +133,22 @@ class PreTokenizerTests: XCTestCase {
         )
         XCTAssertEqual(
             preTokenizer2.preTokenize(text: "   Hey,    friend,    what's up?  "),
-            [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " ", ""]
+            [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " "]
         )
 
-        let preTokenizer3 = SplitPreTokenizer(config: Config(["pattern": ["Regex": "\\s"], "invert": true]))
+        let preTokenizer3 = SplitPreTokenizer(config: Config(["pattern": ["Regex": "(?i:\'s|\'t|\'re|\'ve|\'m|\'ll|\'d)|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+|\\p{N}{1,3}| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]*|\\s*[\\r\\n]+|\\s+(?!\\S)|\\s+"], "invert": true]))
         XCTAssertEqual(
-            preTokenizer3.preTokenize(text: "Hey friend!"),
-            ["Hey", "friend!"]
+            preTokenizer3.preTokenize(text: "Hello"),
+            ["Hello"]
         )
+
         XCTAssertEqual(
-            preTokenizer3.preTokenize(text: "Hey friend!     How are you?!?"),
-            ["Hey", "friend!", "How", "are", "you?!?"]
+            preTokenizer3.preTokenize(text: "Hey friend!"),
+            ["Hey", " friend", "!"]
         )
         XCTAssertEqual(
-            preTokenizer3.preTokenize(text: "   Hey,    friend,    what's up?  "),
-            ["Hey,", "friend,", "what's", "up?", ""]
+            preTokenizer3.preTokenize(text: "Hey friend!     How are you?!?"),
+            ["Hey", " friend", "!", "    ", " How", " are", " you", "?!?"]
         )
     }
     
diff --git a/Tests/TokenizersTests/TokenizerTests.swift b/Tests/TokenizersTests/TokenizerTests.swift
@@ -95,6 +95,19 @@ class GemmaUnicodeTests: XCTestCase {
     }
 }
 
+class PhiSimpleTests: XCTestCase {
+    func testPhi4() async throws {
+        guard let tokenizer = try await AutoTokenizer.from(pretrained: "microsoft/phi-4") as? PreTrainedTokenizer else {
+            XCTFail()
+            return
+        }
+
+        XCTAssertEqual(tokenizer.encode(text: "hello"), [15339])
+        XCTAssertEqual(tokenizer.encode(text: "hello world"), [15339, 1917])
+        XCTAssertEqual(tokenizer.encode(text: "<|im_start|>user<|im_sep|>Who are you?<|im_end|><|im_start|>assistant<|im_sep|>"), [100264, 882, 100266, 15546, 527, 499, 30, 100265, 100264, 78191, 100266])
+    }
+}
+
 
 struct EncodedTokenizerSamplesDataset: Decodable {
     let text: String

Original file line number	Diff line number	Diff line change
`@@ -248,7 +248,7 @@ extension StringSplitPattern {`
`248`	`248`	`func split(_ text: String, invert: Bool = true) -> [String] {`
`249`	`249`	`switch self {`
`250`	`250`	`case .regexp(let regexp):`
`251`		`- return text.split(by: regexp, includeSeparators: !invert)`
	`251`	`+ return text.split(by: regexp, includeSeparators: true)`
`252`	`252`	`case .string(let substring):`
`253`	`253`	`return text.split(by: substring, options: [], includeSeparators: !invert)`
`254`	`254`	`}`
`@@ -292,7 +292,9 @@ public extension String {`
`292`	`292`	`start = range.upperBound`
`293`	`293`	`}`
`294`	`294`
`295`		`- result.append(String(self[start...]))`
	`295`	`+ if omittingEmptySubsequences && start < endIndex {`
	`296`	`+ result.append(String(self[start...]))`
	`297`	`+ }`
`296`	`298`	`return result`
`297`	`299`	`}`
`298`	`300`
Original file line number	Diff line number	Diff line change
`@@ -119,7 +119,7 @@ class PreTokenizerTests: XCTestCase {`
`119`	`119`	`)`
`120`	`120`	`XCTAssertEqual(`
`121`	`121`	`preTokenizer1.preTokenize(text: " Hey, friend, what's up? "),`
`122`		`- [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " ", ""]`
	`122`	`+ [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " "]`
`123`	`123`	`)`
`124`	`124`
`125`	`125`	`let preTokenizer2 = SplitPreTokenizer(config: Config(["pattern": ["Regex": "\\s"]]))`
`@@ -133,21 +133,22 @@ class PreTokenizerTests: XCTestCase {`
`133`	`133`	`)`
`134`	`134`	`XCTAssertEqual(`
`135`	`135`	`preTokenizer2.preTokenize(text: " Hey, friend, what's up? "),`
`136`		`- [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " ", ""]`
	`136`	`+ [" ", " ", " ", "Hey,", " ", " ", " ", " ", "friend,", " ", " ", " ", " ", "what's", " ", "up?", " ", " "]`
`137`	`137`	`)`
`138`	`138`
`139`		`- let preTokenizer3 = SplitPreTokenizer(config: Config(["pattern": ["Regex": "\\s"], "invert": true]))`
	`139`	`+ let preTokenizer3 = SplitPreTokenizer(config: Config(["pattern": ["Regex": "(?i:\'s\|\'t\|\'re\|\'ve\|\'m\|\'ll\|\'d)\|[^\\r\\n\\p{L}\\p{N}]?\\p{L}+\|\\p{N}{1,3}\| ?[^\\s\\p{L}\\p{N}]+[\\r\\n]\|\\s[\\r\\n]+\|\\s+(?!\\S)\|\\s+"], "invert": true]))`
`140`	`140`	`XCTAssertEqual(`
`141`		`- preTokenizer3.preTokenize(text: "Hey friend!"),`
`142`		`- ["Hey", "friend!"]`
	`141`	`+ preTokenizer3.preTokenize(text: "Hello"),`
	`142`	`+ ["Hello"]`
`143`	`143`	`)`
	`144`	`+`
`144`	`145`	`XCTAssertEqual(`
`145`		`- preTokenizer3.preTokenize(text: "Hey friend! How are you?!?"),`
`146`		`- ["Hey", "friend!", "How", "are", "you?!?"]`
	`146`	`+ preTokenizer3.preTokenize(text: "Hey friend!"),`
	`147`	`+ ["Hey", " friend", "!"]`
`147`	`148`	`)`
`148`	`149`	`XCTAssertEqual(`
`149`		`- preTokenizer3.preTokenize(text: " Hey, friend, what's up? "),`
`150`		`- ["Hey,", "friend,", "what's", "up?", ""]`
	`150`	`+ preTokenizer3.preTokenize(text: "Hey friend! How are you?!?"),`
	`151`	`+ ["Hey", " friend", "!", " ", " How", " are", " you", "?!?"]`
`151`	`152`	`)`
`152`	`153`	`}`
`153`	`154`