llama.cpp inference code/compute flow #8747

kaizizzzzzz · 2024-07-29T06:37:25Z

kaizizzzzzz
Jul 29, 2024

This project is comprehensive and complex. I'm interested in the inference part, especially the low-bit quantization inference. I did see some cuda kernels for some kquantization techniques. But I didn't find the entire inference compute flow/code in llama.cpp (Where some kernels may be replaced by the cuda kernels). Could anyone provide some help? Thx!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

llama.cpp inference code/compute flow #8747

Uh oh!

{{title}}

Uh oh!

Uh oh!

{{editor}}'s edit

{{editor}}'s edit

Uh oh!

Replies: 0 comments

Select a reply

Uh oh!

llama.cpp inference code/compute flow #8747

Uh oh!

Uh oh!

kaizizzzzzz Jul 29, 2024

Replies: 0 comments

kaizizzzzzz
Jul 29, 2024