failed to allocate buffer for deepseekv2 model Segmentation fault (core dumped) #8520

Ramzee-S · 2024-07-16T19:21:17Z

Ramzee-S
Jul 16, 2024

Hi, i am still new to llama.cpp. I tried to load a large model (deepseekv2) on a large computer with 512GB ddr5 memory.
The same model works with ollama with cpu only. but is a bit slow, so i wanted to see if using llama.cpp directly is faster.
Other models work fine so llama.cpp install seems to be working. But with this model i get an error.
./llama-server -m ./models/deepseek.gguf --port 8080
INFO [ main] build info | tid="130263931926464" timestamp=1721156913 build=3404 commit="1666f92d"
INFO [ main] system info | tid="130263931926464" timestamp=1721156913 n_threads=104 n_threads_batch=-1 total_threads=208 system_info="AVX = 1 | AVX_VNNI = 1 | AVX2 = 1 | AVX512 = 1 | AVX512_VBMI = 1 | AVX512_VNNI = 1 | AVX512_BF16 = 1 | FMA = 1 | NEON = 0 | SVE = 0 | ARM_FMA = 0 | F16C = 1 | FP16_VA = 0 | WASM_SIMD = 0 | BLAS = 0 | SSE3 = 1 | SSSE3 = 1 | VSX = 0 | MATMUL_INT8 = 0 | LLAMAFILE = 1 | "
llama_model_loader: loaded meta data with 39 key-value pairs and 959 tensors from ./models/deepseek.gguf (version GGUF V3 (latest))
llama_model_loader: Dumping metadata keys/values. Note: KV overrides do not apply in this output.
llama_model_loader: - kv 0: general.architecture str = deepseek2
llama_model_loader: - kv 1: general.name str = DeepSeek-Coder-V2-Instruct
llama_model_loader: - kv 2: deepseek2.block_count u32 = 60
llama_model_loader: - kv 3: deepseek2.context_length u32 = 163840
llama_model_loader: - kv 4: deepseek2.embedding_length u32 = 5120
llama_model_loader: - kv 5: deepseek2.feed_forward_length u32 = 12288
llama_model_loader: - kv 6: deepseek2.attention.head_count u32 = 128
llama_model_loader: - kv 7: deepseek2.attention.head_count_kv u32 = 128
llama_model_loader: - kv 8: deepseek2.rope.freq_base f32 = 10000.000000
llama_model_loader: - kv 9: deepseek2.attention.layer_norm_rms_epsilon f32 = 0.000001
llama_model_loader: - kv 10: deepseek2.expert_used_count u32 = 6
llama_model_loader: - kv 11: general.file_type u32 = 2
llama_model_loader: - kv 12: deepseek2.leading_dense_block_count u32 = 1
llama_model_loader: - kv 13: deepseek2.vocab_size u32 = 102400
llama_model_loader: - kv 14: deepseek2.attention.q_lora_rank u32 = 1536
llama_model_loader: - kv 15: deepseek2.attention.kv_lora_rank u32 = 512
llama_model_loader: - kv 16: deepseek2.attention.key_length u32 = 192
llama_model_loader: - kv 17: deepseek2.attention.value_length u32 = 128
llama_model_loader: - kv 18: deepseek2.expert_feed_forward_length u32 = 1536
llama_model_loader: - kv 19: deepseek2.expert_count u32 = 160
llama_model_loader: - kv 20: deepseek2.expert_shared_count u32 = 2
llama_model_loader: - kv 21: deepseek2.expert_weights_scale f32 = 16.000000
llama_model_loader: - kv 22: deepseek2.rope.dimension_count u32 = 64
llama_model_loader: - kv 23: deepseek2.rope.scaling.type str = yarn
llama_model_loader: - kv 24: deepseek2.rope.scaling.factor f32 = 40.000000
llama_model_loader: - kv 25: deepseek2.rope.scaling.original_context_length u32 = 4096
llama_model_loader: - kv 26: deepseek2.rope.scaling.yarn_log_multiplier f32 = 0.100000
llama_model_loader: - kv 27: tokenizer.ggml.model str = gpt2
llama_model_loader: - kv 28: tokenizer.ggml.pre str = deepseek-llm
llama_model_loader: - kv 29: tokenizer.ggml.tokens arr[str,102400] = ["!", """, "#", "$", "%", "&", "'", ...
llama_model_loader: - kv 30: tokenizer.ggml.token_type arr[i32,102400] = [1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...
llama_model_loader: - kv 31: tokenizer.ggml.merges arr[str,99757] = ["Ġ Ġ", "Ġ t", "Ġ a", "i n", "h e...
llama_model_loader: - kv 32: tokenizer.ggml.bos_token_id u32 = 100000
llama_model_loader: - kv 33: tokenizer.ggml.eos_token_id u32 = 100001
llama_model_loader: - kv 34: tokenizer.ggml.padding_token_id u32 = 100001
llama_model_loader: - kv 35: tokenizer.ggml.add_bos_token bool = true
llama_model_loader: - kv 36: tokenizer.ggml.add_eos_token bool = false
llama_model_loader: - kv 37: tokenizer.chat_template str = {% if not add_generation_prompt is de...
llama_model_loader: - kv 38: general.quantization_version u32 = 2
llama_model_loader: - type f32: 300 tensors
llama_model_loader: - type q4_0: 658 tensors
llama_model_loader: - type q6_K: 1 tensors
llm_load_vocab: special tokens cache size = 2400
llm_load_vocab: token to piece cache size = 0.6661 MB
llm_load_print_meta: format = GGUF V3 (latest)
llm_load_print_meta: arch = deepseek2
llm_load_print_meta: vocab type = BPE
llm_load_print_meta: n_vocab = 102400
llm_load_print_meta: n_merges = 99757
llm_load_print_meta: vocab_only = 0
llm_load_print_meta: n_ctx_train = 163840
llm_load_print_meta: n_embd = 5120
llm_load_print_meta: n_layer = 60
llm_load_print_meta: n_head = 128
llm_load_print_meta: n_head_kv = 128
llm_load_print_meta: n_rot = 64
llm_load_print_meta: n_swa = 0
llm_load_print_meta: n_embd_head_k = 192
llm_load_print_meta: n_embd_head_v = 128
llm_load_print_meta: n_gqa = 1
llm_load_print_meta: n_embd_k_gqa = 24576
llm_load_print_meta: n_embd_v_gqa = 16384
llm_load_print_meta: f_norm_eps = 0.0e+00
llm_load_print_meta: f_norm_rms_eps = 1.0e-06
llm_load_print_meta: f_clamp_kqv = 0.0e+00
llm_load_print_meta: f_max_alibi_bias = 0.0e+00
llm_load_print_meta: f_logit_scale = 0.0e+00
llm_load_print_meta: n_ff = 12288
llm_load_print_meta: n_expert = 160
llm_load_print_meta: n_expert_used = 6
llm_load_print_meta: causal attn = 1
llm_load_print_meta: pooling type = 0
llm_load_print_meta: rope type = 0
llm_load_print_meta: rope scaling = yarn
llm_load_print_meta: freq_base_train = 10000.0
llm_load_print_meta: freq_scale_train = 0.025
llm_load_print_meta: n_ctx_orig_yarn = 4096
llm_load_print_meta: rope_finetuned = unknown
llm_load_print_meta: ssm_d_conv = 0
llm_load_print_meta: ssm_d_inner = 0
llm_load_print_meta: ssm_d_state = 0
llm_load_print_meta: ssm_dt_rank = 0
llm_load_print_meta: model type = 236B
llm_load_print_meta: model ftype = Q4_0
llm_load_print_meta: model params = 235.74 B
llm_load_print_meta: model size = 123.78 GiB (4.51 BPW)
llm_load_print_meta: general.name = DeepSeek-Coder-V2-Instruct
llm_load_print_meta: BOS token = 100000 '<｜begin▁of▁sentence｜>'
llm_load_print_meta: EOS token = 100001 '<｜end▁of▁sentence｜>'
llm_load_print_meta: PAD token = 100001 '<｜end▁of▁sentence｜>'
llm_load_print_meta: LF token = 126 'Ä'
llm_load_print_meta: max token length = 256
llm_load_print_meta: n_layer_dense_lead = 1
llm_load_print_meta: n_lora_q = 1536
llm_load_print_meta: n_lora_kv = 512
llm_load_print_meta: n_ff_exp = 1536
llm_load_print_meta: n_expert_shared = 2
llm_load_print_meta: expert_weights_scale = 16.0
llm_load_print_meta: rope_yarn_log_mul = 0.1000
llm_load_tensors: ggml ctx size = 0.40 MiB
llm_load_tensors: CPU buffer size = 126751.35 MiB
....................................................................................................
llama_new_context_with_model: n_ctx = 163840
llama_new_context_with_model: n_batch = 2048
llama_new_context_with_model: n_ubatch = 512
llama_new_context_with_model: flash_attn = 0
llama_new_context_with_model: freq_base = 10000.0
llama_new_context_with_model: freq_scale = 0.025
ggml_backend_cpu_buffer_type_alloc_buffer: failed to allocate buffer of size 805306368032
llama_kv_cache_init: failed to allocate buffer for kv cache
llama_new_context_with_model: llama_kv_cache_init() failed for self-attention cache
llama_init_from_gpt_params: error: failed to create context with model './models/deepseek.gguf'
ERR [ load_model] unable to load model | tid="130263931926464" timestamp=1721156961 model="./models/deepseek.gguf"
Segmentation fault (core dumped)

Is this an issue with the llamacpp? or with the model?
Before i thought maybe i run out of memory, but checking top this does not seem the case. But maybe the buffer is so big it does not even try. Is there any setting i can try to change? Even if it something obvious, it might not be obvious to me. Thanks

Answered by compilade

Jul 17, 2024

I tried to load a large model (deepseekv2) on a large computer with 512GB ddr5 memory.

llama_new_context_with_model: n_ctx = 163840
ggml_backend_cpu_buffer_type_alloc_buffer: failed to allocate buffer of size 805306368032

It tried to allocate 805306368032 bytes (750 GiB).

But maybe the buffer is so big it does not even try.

Yes, this likely what happened.

Is there any setting i can try to change?

Try using a smaller context size, with the -c flag.

For example (extending the command you've used):

$ ./llama-server -m ./models/deepseek.gguf --port 8080 -c 32768

This should make the huge buffer from before smaller at around 150 GiB (since 32768 is 5 times smaller than 163840, and 150 …

View full answer

compilade · 2024-07-17T06:22:37Z

compilade
Jul 17, 2024
Collaborator

I tried to load a large model (deepseekv2) on a large computer with 512GB ddr5 memory.

llama_new_context_with_model: n_ctx = 163840
ggml_backend_cpu_buffer_type_alloc_buffer: failed to allocate buffer of size 805306368032

It tried to allocate 805306368032 bytes (750 GiB).

But maybe the buffer is so big it does not even try.

Yes, this likely what happened.

Is there any setting i can try to change?

Try using a smaller context size, with the -c flag.

For example (extending the command you've used):

$ ./llama-server -m ./models/deepseek.gguf --port 8080 -c 32768

This should make the huge buffer from before smaller at around 150 GiB (since 32768 is 5 times smaller than 163840, and 150 GiB is 5 times smaller than 750 GiB).

If that's still too big, try smaller values after -c.

1 reply

Ramzee-S Jul 17, 2024
Author

Thanks! It works now. Speed is even tolerable, but not fast.
So i guess i learned that that large models thus not only increase the base Memory needed for the model itself, but also increase the 'multiplier' of the context for the required memory buffer. Unfortiunatly but ok that is the way it seems. .

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

failed to allocate buffer for deepseekv2 model Segmentation fault (core dumped) #8520

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 1 comment 1 reply

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Select a reply

Uh oh!

failed to allocate buffer for deepseekv2 model Segmentation fault (core dumped) #8520

Uh oh!

Uh oh!

Ramzee-S Jul 16, 2024

Replies: 1 comment · 1 reply

Uh oh!

compilade Jul 17, 2024 Collaborator

Uh oh!

Uh oh!

Ramzee-S Jul 17, 2024 Author

Ramzee-S
Jul 16, 2024

Replies: 1 comment 1 reply

compilade
Jul 17, 2024
Collaborator

Ramzee-S Jul 17, 2024
Author