GitHub - AXERA-TECH/libclip.axera: CLIP-based Image Search SDK for Axera NPU SoCs (AX650N / AX650A / AX8850N / AX8850)

中文 | English

CLIP-based Image Search SDK for Axera NPU SoCs (AX650N / AX650A / AX8850N / AX8850)

This SDK enables efficient text-to-image retrieval using CLIP (Contrastive Language–Image Pretraining), optimized for Axera’s NPU-based SoC platforms including AX650, AX650C, AX8850, and AX650A, or Axera's dedicated AI accelerator.

With this SDK, you can:

Perform semantic image search by providing natural language queries.
Utilize CLIP to embed text queries and compare them against a pre-computed set of image embeddings.
Run all inference processes directly on Axera NPUs for low-latency, high-throughput performance at the edge.

This solution is well-suited for smart cameras, content filtering, AI-powered user interfaces, and other edge AI scenarios where natural language-based image retrieval is required.

SDK Architecture

flowchart TD
    A["Input Image Set"] --> B["Image Encoder (CLIP Vision)"]
    B --> C["Extract Image Feature"]
    C --> D["Store (key, feature) in LevelDB"]

    E["Input Text Query"] --> F["Text Encoder (CLIP Text)"]
    F --> G["Extract Text Feature"]

    D --> H["Load Image Features from LevelDB"]
    G --> I["Matrix Multiply (Text · Image Features)"]
    I --> J["Softmax Scoring"]
    J --> K["Top-K Matching Results"]

Build Instructions

CI Status

Architecture	Status	Download
x86		download
aarch64		download

x86 Build

git clone --recursive https://github.com/AXERA-TECH/libclip.axera.git
cd libclip.axera
sudo apt install libopencv-dev build-essential 
mkdir build && cd build
cmake -DCMAKE_BUILD_TYPE=Release ..
make -j8
make install

AArch64 Build

Cross-compile for aarch64

git clone --recursive https://github.com/AXERA-TECH/libclip.axera.git
cd libclip.axera
./build_aarch64.sh

Native Build on Target Board

git clone --recursive https://github.com/AXERA-TECH/libclip.axera.git
cd libclip.axera
sudo apt install libopencv-dev build-essential
./build.sh

Performance

Model	Input Shape	Latency (ms)	CMM Usage (MB)
cnclip_vit_l14_336px_vision_u16u8.axmodel	1 x 3 x 336 x 336	88.475 ms	304 MB
cnclip_vit_l14_336px_text_u16.axmodel	1 x 52	4.576 ms	122 MB

Usage Example

Get model

clip

cnclip

On x86 (for development/testing)

./test_match_by_text \
  --ienc cnclip/cnclip_vit_l14_336px_vision_u16u8.axmodel \
  --tenc cnclip/cnclip_vit_l14_336px_text_u16.axmodel \
  --vocab cnclip/cn_vocab.txt \
  --db_path clip_feat_db/ \
  -i coco_1000/ \
  -t dog

On Target Board (AX650/AX8850 etc.)

./test_match_by_text \
  --ienc cnclip/cnclip_vit_l14_336px_vision_u16u8.axmodel \
  --tenc cnclip/cnclip_vit_l14_336px_text_u16.axmodel \
  --vocab cnclip/cn_vocab.txt \
  --db_path clip_feat_db/ \
  -i coco_1000/ \
  -t dog

Output Example

match text "dog"   8.86ms
|           key           | score |
|-------------------------|-------|
| 000000071226.jpg        |  0.16 |
| 000000052891.jpg        |  0.12 |
| 000000049269.jpg        |  0.11 |
| 000000078823.jpg        |  0.09 |
| 000000029393.jpg        |  0.07 |
| 000000023272.jpg        |  0.06 |
| 000000082807.jpg        |  0.05 |
| 000000107226.jpg        |  0.04 |
| 000000060835.jpg        |  0.04 |
| 000000076417.jpg        |  0.04 |

Web demo(After `make install`)

pip install -r requirements.txt
python gradio_example.py --ienc cnclip/cnclip_vit_l14_336px_vision_u16u8.axmodel --tenc cnclip/cnclip_vit_l14_336px_text_u16.axmodel --vocab cnclip/cn_vocab.txt --isCN 1 --db_path clip_feat_db_coco --image_folder coco_1000/

* Running on local URL:  http://0.0.0.0:7860
* To create a public link, set `share=True` in `launch()`.

Dependencies

OpenCV

References

This project is based on the following open-source components:

CLIP: A multimodal model that can process both text and images.
Chinese-CLIP: A Chinese CLIP model with strong performance in Chinese text-image retrieval tasks.
LevelDB: A fast key-value storage library used for storing image features.

Community

QQ 群: 139953715

Name		Name	Last commit message	Last commit date
Latest commit History 29 Commits
.github/workflows		.github/workflows
images		images
include		include
pyclip		pyclip
src		src
tests		tests
third-party		third-party
toolchains		toolchains
.gitignore		.gitignore
.gitmodules		.gitmodules
CMakeLists.txt		CMakeLists.txt
README.md		README.md
README_zh.md		README_zh.md
build.sh		build.sh
build_aarch64.sh		build_aarch64.sh
build_rpi5.sh		build_rpi5.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

CLIP-based Image Search SDK for Axera NPU SoCs (AX650N / AX650A / AX8850N / AX8850)

SDK Architecture

Build Instructions

CI Status

x86 Build

AArch64 Build

Cross-compile for aarch64

Native Build on Target Board

Performance

Usage Example

Get model

On x86 (for development/testing)

On Target Board (AX650/AX8850 etc.)

Output Example

Web demo(After `make install`)

Dependencies

References

Community

About

Uh oh!

Releases 1

Packages

Contributors 3

Uh oh!

Languages

AXERA-TECH/libclip.axera

Folders and files

Latest commit

History

Repository files navigation

CLIP-based Image Search SDK for Axera NPU SoCs (AX650N / AX650A / AX8850N / AX8850)

SDK Architecture

Build Instructions

CI Status

x86 Build

AArch64 Build

Cross-compile for aarch64

Native Build on Target Board

Performance

Usage Example

Get model

On x86 (for development/testing)

On Target Board (AX650/AX8850 etc.)

Output Example

Web demo(After make install)

Dependencies

References

Community

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases 1

Packages 0

Contributors 3

Uh oh!

Languages

Web demo(After `make install`)

Packages