@Ben93kie I'm able to run it with deepstream nvcr.io/nvidia/deepstream:7.1-gc-triton-devel

Steps

export model to tensorrt

# .pth -> .onnx
from rfdetr import RFDETRBase

resolution = 728
output_dir = f"trt_{resolution}"

model = RFDETRBase(pretrain_weights=f"output/{resolution}_checkpoint_best_ema.pth", resolution=resolution)

model.export(output_dir=f"{output_dir}", infer_dir=None, simplify=True,  backbone_only=False)

# .onnx -> .engine (nvcr.io/nvidia/deepstream:7.1-gc-triton-devel)
trtexec --onnx="inference_model.onnx" \
        --saveEngine="inference_model.engine" \
        --memPoolSize=workspace:4096 --fp16 \
        --useCudaGraph --useSpinWait --warmUp=500 --avgRuns=1000 --duration=10 --verbose

Create custom parser plugin rf_detr_parser.cpp ref

g++ -Wall -shared -fPIC \
  -I /usr/local/cuda/include \
  -I /opt/nvidia/deepstream/deepstream/sources/includes \
  -o nvdsinfer_rf_detr_parser.so rf_detr_parser.cpp

#include <nvdsinfer_custom_impl.h>
#include <cstring>
#include <vector>
#include <iostream>
#include <cmath>
#include <algorithm>

extern "C"
bool NvDsInferRFDETRParser(
    std::vector<NvDsInferLayerInfo> const &outputLayersInfo,
    NvDsInferNetworkInfo const &networkInfo,
    NvDsInferParseDetectionParams const &detectionParams,
    std::vector<NvDsInferObjectDetectionInfo> &objectList)
{
    const NvDsInferLayerInfo *dets_layer = nullptr;
    const NvDsInferLayerInfo *labels_layer = nullptr;

    // Find output layers
    for (auto &layer : outputLayersInfo) {
        if (strcmp(layer.layerName, "dets") == 0) {
            dets_layer = &layer;
        } else if (strcmp(layer.layerName, "labels") == 0) {
            labels_layer = &layer;
        }
    }

    if (!dets_layer || !labels_layer) {
        std::cerr << "Missing output layer: dets or labels\n";
        return false;
    }

    // Get dimensions
    int num_detections = dets_layer->inferDims.d[0];
    int dets_per_detection = dets_layer->inferDims.d[1];
    int labels_per_detection = labels_layer->inferDims.d[1];

    // Validate dimensions
    if (dets_layer->inferDims.d[2] != 0) {
        std::cerr << "Unexpected third dimension in dets: " << dets_layer->inferDims.d[2] << "\n";
        return false;
    }
    if (labels_layer->inferDims.d[2] != 0) {
        std::cerr << "Unexpected third dimension in labels: " << labels_layer->inferDims.d[2] << "\n";
        return false;
    }
    if (dets_per_detection != 4) {
        std::cerr << "Unexpected dets dimension: expected 4, got " << dets_per_detection << "\n";
        return false;
    }

    auto *dets = static_cast<float*>(dets_layer->buffer);
    auto *labels = static_cast<float*>(labels_layer->buffer);

    if (!dets || !labels) {
        std::cerr << "Null buffer for dets or labels\n";
        return false;
    }

    float frame_width = static_cast<float>(networkInfo.width);
    float frame_height = static_cast<float>(networkInfo.height);

    // Structure to hold score, label, and box index for top-k selection
    struct Prediction {
        float score;
        int label;
        int box_index;
        bool operator<(const Prediction &other) const {
            return score > other.score; // Sort descending
        }
    };

    // --- Flatten logits and perform top-k based purely on sigmoid ---
    std::vector<Prediction> predictions;
    predictions.reserve(num_detections * labels_per_detection);

    for (int i = 0; i < num_detections; ++i) {
        int offset_label = i * labels_per_detection;
        for (int j = 0; j < labels_per_detection; ++j) {
            float logit = labels[offset_label + j];
            float score = 1.0f / (1.0f + std::exp(-logit));  // Sigmoid
            predictions.push_back({score, j, i});
        }
    }

    // Select top-300 globally by score
    const int top_k = std::min(300, static_cast<int>(predictions.size()));
    std::partial_sort(predictions.begin(), predictions.begin() + top_k, predictions.end());

    // Proceed with top_k predictions
    for (int k = 0; k < top_k; ++k) {
        const auto &pred = predictions[k];
        int i = pred.box_index;
        int class_id = pred.label;
        float score = pred.score;

        // Box conversion from cxcywh → xyxy then scaled by frame size
        int offset_box = i * dets_per_detection;
        float x_c = dets[offset_box + 0];
        float y_c = dets[offset_box + 1];
        float w = std::max(dets[offset_box + 2], 0.0f);
        float h = std::max(dets[offset_box + 3], 0.0f);

        float x1 = (x_c - 0.5f * w) * frame_width;
        float y1 = (y_c - 0.5f * h) * frame_height;
        float x2 = (x_c + 0.5f * w) * frame_width;
        float y2 = (y_c + 0.5f * h) * frame_height;

        float left = x1;
        float top = y1;
        float width = x2 - x1;
        float height = y2 - y1;

        if (width <= 0 || height <= 0)
            continue;

        NvDsInferObjectDetectionInfo obj = {0};
        obj.classId = class_id;
        obj.detectionConfidence = roundf(score * 100.0f) / 100.0f;
        obj.left = left;
        obj.top = top;
        obj.width = width;
        obj.height = height;

        objectList.push_back(obj);
    }

    

    return true;
}

ds_config.txt

[property]
gie-unique-id=1
infer-dims=3;728;728        # CHW
network-input-order=0
model-color-format=0   # RGB
num-detected-classes=6   # num of classes
network-mode=2    # fp16
cluster-mode=4
net-scale-factor=0.01740
offsets=123.675;116.28;103.53
onnx-file=inference_model.onnx
model-engine-file=inference_model.engine
labelfile-path=labels.txt
output-blob-names=dets;labels
parse-bbox-func-name=NvDsInferRFDETRParser # custom bbox parser function name
custom-lib-path=nvdsinfer_rf_detr_parser.so # custom bbox parser

[class-attrs-all]
pre-cluster-threshold=0.3

[class-attrs-5]
pre-cluster-threshold=0.6

label.txt

person
bicycle
car
motorcycle
airplane
bus

inference

gst-launch-1.0 filesrc location=videos/1.mp4 ! decodebin ! queue ! nvvideoconvert ! capsfilter caps="video/x-raw(memory:NVMM),format=NV12" ! mux.sink_0 nvstreammux name=mux batch-size=1 width=1920 height=1080 batched-push-timeout=40000 ! nvinfer config-file-path=ds_config.txt ! nvvideoconvert ! nvdsosd ! nvvideoconvert ! nvv4l2h264enc ! h264parse ! qtmux ! filesink location=videos/output.mp4

Fine tuned model to onnx/tensorrt/tflite conversion? #31

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions