Simple WordLevel tokenizer #8282

iyubondyrev · 2024-07-03T16:50:20Z

iyubondyrev
Jul 3, 2024

Hello!

I’m trying to get a basic word-level tokenizer to work with a smaller version of the Phi3ForCasualML model, which only has 2 layers and 4 heads. The vocabulary is pretty small too, only 382 words.

Here's how I've set up my SentencePiece tokenizer:

model = spm.SentencePieceTrainer.Train(input=files, model_prefix="tokenizer", vocab_size=4, model_type="word", character_coverage=1.0, 
    bos_id=1,
    pad_id=0,
    eos_id=2,
    unk_id=3,
    )

It basically splits sentences into words and assigns numbers to them. But I’m stuck trying to convert this setup into a .gguf format. I have a tokenizer.model from SentencePiece, but it’s not working right now. Here’s what happens when I try to load the model:

llama_model_loader: loaded meta data with 22 key-value pairs and 15 tensors from ggml-model-f32.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv   0:                       general.architecture str              = phi3
llama_model_loader: - kv   1:                               general.name str              = Phi3
llama_model_loader: - kv   2:                        phi3.context_length u32              = 512
llama_model_loader: - kv   3:  phi3.rope.scaling.original_context_length u32              = 512
llama_model_loader: - kv   4:                      phi3.embedding_length u32              = 256
llama_model_loader: - kv   5:                   phi3.feed_forward_length u32              = 1024
llama_model_loader: - kv   6:                           phi3.block_count u32              = 2
llama_model_loader: - kv   7:                  phi3.attention.head_count u32              = 4
llama_model_loader: - kv   8:               phi3.attention.head_count_kv u32              = 4
llama_model_loader: - kv   9:      phi3.attention.layer_norm_rms_epsilon f32              = 0.000010
llama_model_loader: - kv  10:                  phi3.rope.dimension_count u32              = 64
llama_model_loader: - kv  11:                        phi3.rope.freq_base f32              = 10000.000000
llama_model_loader: - kv  12:                          general.file_type u32              = 0
llama_model_loader: - kv  13:                       tokenizer.ggml.model str              = llama
llama_model_loader: - kv  14:                         tokenizer.ggml.pre str              = default
llama_model_loader: - kv  15:                      tokenizer.ggml.tokens arr[str,382]     = ["<pad>", "<s>", "</s>", "<unk>", "�...
llama_model_loader: - kv  16:                      tokenizer.ggml.scores arr[f32,382]     = [0.000000, 0.000000, 0.000000, 0.0000...
llama_model_loader: - kv  17:                  tokenizer.ggml.token_type arr[i32,382]     = [3, 3, 3, 2, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv  18:                tokenizer.ggml.bos_token_id u32              = 1
llama_model_loader: - kv  19:                tokenizer.ggml.eos_token_id u32              = 2
llama_model_loader: - kv  20:            tokenizer.ggml.padding_token_id u32              = 0
llama_model_loader: - kv  21:               general.quantization_version u32              = 2
llama_model_loader: - type  f32:   15 tensors
llm_load_vocab: SPM vocabulary, but newline token not found: _Map_base::at! Using special_pad_id instead.llm_load_vocab: special tokens cache size = 4
llm_load_vocab: token to piece cache size = 0.0028 MB
llama_model_load: error loading model: error loading model vocabulary: _Map_base::at
llama_load_model_from_file: failed to load model
Error: could not load model from file 'ggml-model-f32.gguf'.

Any ideas on how to make this tokenizer work with the transformer model or how to fix the loading issue? Thanks for any help you can offer!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Simple WordLevel tokenizer #8282

Uh oh!

{{title}}

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

Simple WordLevel tokenizer #8282

Uh oh!

iyubondyrev Jul 3, 2024

Replies: 0 comments

iyubondyrev
Jul 3, 2024