How to Truncate the input prompt? #2443

AamodThakur · 2024-01-15T15:18:00Z

AamodThakur
Jan 15, 2024

We are using vicuna model and setting the maximum length to 4096.

llm = LLM(model="lmsys/vicuna-7b-v1.5", max_model_len=4096, max_num_batched_tokens = 4096, tensor_parallel_size=2)

We are sending input prompt of more than 10K, and wanted it to be truncated to 4096. But we are getting erorr "Input prompt (25597 tokens) is too long and exceeds limit of 4096".

How can we set truncate to true in vllm?

Output of get tokenizer:
LlamaTokenizerFast(name_or_path='lmsys/vicuna-7b-v1.5', vocab_size=32000, model_max_length=4096, is_fast=True, padding_side='right', truncation_side='right', special_tokens={'bos_token': '<s>', 'eos_token': '</s>', 'unk_token': '<unk>', 'pad_token': '<unk>'}, clean_up_tokenization_spaces=False), added_tokens_decoder={ 0: AddedToken("<unk>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 1: AddedToken("<s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), 2: AddedToken("</s>", rstrip=False, lstrip=False, single_word=False, normalized=False, special=True), }

Thanks.

tomdzh · 2024-01-16T23:18:11Z

tomdzh
Jan 16, 2024

Same question.

0 replies

chenxu2048 · 2024-01-17T05:25:45Z

chenxu2048
Jan 17, 2024

You can encode prompt with tokenizer and call generate with truncated prompt tokens. The code might be:

llm = LLM(model="lmsys/vicuna-7b-v1.5", max_model_len=4096, max_num_batched_tokens = 4096, tensor_parallel_size=2)
tokenizer = llm.get_tokenizer()
prompt_token_ids = tokenizer.encode("<PROMPT>", return_tensors="pt")

# Truncate prompt_token_ids
prompt_token_ids = prompt_token_ids[-MAX_PROMPT_TOKEN:]

llm.generate(prompt_token_ids=prompt_token_ids)

5 replies

AamodThakur Jan 20, 2024
Author

Thank for your response,

I getting error ("TypeError: unsupported operand type(s) for +: 'Tensor' and 'list'") for the above code given.
Also getting similar error at different part of code when if "prompt_token_ids" converted to list.

Thanks.

chenxu2048 Jan 22, 2024

Thank you for your correction! llm.generate accepts a List[List[int]] type instead of a torch.Tensor.

Also getting similar error at different part of code when if "prompt_token_ids" converted to list.

This code was tested on my environment with the latest main branch, and it should work.

from vllm import LLM

llm = LLM(model="lmsys/vicuna-7b-v1.5", max_model_len=4096, max_num_batched_tokens = 4096)
tokenizer = llm.get_tokenizer()
prompt_token_ids = tokenizer.encode("def main", return_tensors="pt")

# Truncate prompt_token_ids
prompt_token_ids = prompt_token_ids[-4096:]

llm.generate(prompt_token_ids=prompt_token_ids.tolist())

AamodThakur Jan 23, 2024
Author

Thanks for the answer, it helped a lot.

AamodThakur Feb 3, 2024
Author

For new users, vllm version >= 0.3.0 does not have "return_tensors="pt"".
It directly returns list. So no need to do "prompt_token_ids.tolist()"

chenxu2048 Feb 4, 2024

Thanks for pointing it out.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Uh oh!

How to Truncate the input prompt? #2443

Uh oh!

{{title}}

Uh oh!

Replies: 2 comments 5 replies

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Select a reply

Uh oh!

Uh oh!

How to Truncate the input prompt? #2443

Uh oh!

AamodThakur Jan 15, 2024

Replies: 2 comments · 5 replies

Uh oh!

tomdzh Jan 16, 2024

Uh oh!

chenxu2048 Jan 17, 2024

Uh oh!

AamodThakur Jan 20, 2024 Author

Uh oh!

chenxu2048 Jan 22, 2024

Uh oh!

AamodThakur Jan 23, 2024 Author

Uh oh!

AamodThakur Feb 3, 2024 Author

Uh oh!

chenxu2048 Feb 4, 2024

AamodThakur
Jan 15, 2024

Replies: 2 comments 5 replies

tomdzh
Jan 16, 2024

chenxu2048
Jan 17, 2024

AamodThakur Jan 20, 2024
Author

AamodThakur Jan 23, 2024
Author

AamodThakur Feb 3, 2024
Author