Skip to content

A Telegram bot for validating audio and video content using CV models, SR models, and VLMs, with deepfake detection leveraging metadata analysis.

License

Notifications You must be signed in to change notification settings

ArthurBabkin/Parimate

Repository files navigation

ML System Design Doc: Parimate

1. Зачем идем в разработку продукта?

Бизнес-цель

Создать надёжную и понятную систему валидации пользовательского аудио- и видеоконтента через Telegram-бота, используя ML и принципы Human-Centered AI (HCAI).
Основные задачи:

  • Верификация личности, речи, обстановки.
  • Выявление признаков фейков (в т.ч. дипфейков).
  • Обеспечение безопасности цифровой идентификации.

Проблематика

  • Требуется участие человека и ресурсы.
  • Участились случаи дипфейков и подделок.
  • Нет удобного интерфейса для проверки медиа.

ML-преимущества

  • Распознавание лиц (FaceNet), речи (Whisper).
  • Проверка метаданных (ffprobe, EXIF).
  • Объяснение результатов через Telegram.

Критерии успеха

  • ≥ 85% точности распознавания лиц и речи.
  • Ответ < 10 секунд.
  • Интерпретируемый результат для пользователя.

Пользовательские потребности

  • Отправка медиа для верификации.
  • Без установки приложений (через Telegram).
  • Доверие к результатам за счёт XAI.

2. Бизнес-требования и ограничения

Требования

  • REST API и Telegram-бот.
  • Распознавание лиц, речи, видеообработка.
  • Docker, PostgreSQL, MinIO.

ML-инфраструктура

  • Docker-инференс (лицо + речь).
  • Проверка метаданных на реалистичность.
  • Работа без GPU, с возможностью масштабирования.

Ограничения пилота

  • Одна персона, фраза и сценарий.
  • Без внешней интеграции.
  • Нет полноценной проверки liveness.

3. Скоуп проекта (что входит/не входит)

Что входит

  • Telegram-бот.
  • Распознавание лица и речи.
  • Сравнение с эталоном.
  • Проверка метаданных.
  • Интерпретация и обратная связь.
  • Мульти-пользовательская поддержка.

Что не входит

  • Интеграция с биометрическими базами.
  • Глубокая дипфейк-детекция.

4. Архитектура проекта

Общая схема

  1. Пользователь отправляет видео в бота.
  2. Бот → Backend → Сервисы:
    • 🎭 Лицо
    • 🗣️ Речь
    • 🧾 Метаданные
  3. Результат с объяснением → Telegram.

Компоненты

  • FastAPI backend
  • PostgreSQL
  • Whisper / FaceNet / ffprobe
  • Docker + MinIO
  • Telegram Bot API

Поток данных

{
  "user_input": "Видео с лицом и голосом",
  "face_match": true,
  "speech_match": false,
  "metadata_valid": true,
  "explanation": "Лицо совпадает, но сказанная фраза не соответствует ожидаемой. Метаданные подтверждают, что запись сделана недавно на смартфон."
}

5. Возможности развития

  • Поддержка нескольких пользователей.
  • Интеграция с системами верификации (ЕСИА и др.).
  • Дипфейк-детекция (DeepFaceLab, FakeCatcher).
  • Видео-интерпретация и визуальная обратная связь.
  • Streamlit dashboard или Telegram inline preview.

6. Роли в команде

Участник Роль
Дарья ML-инженер (лицо)
Артур Backend + ASR (Whisper)
Илья Дипфейк + метаданные
Никита Scene validation
Ильяс Документация Readme

About

A Telegram bot for validating audio and video content using CV models, SR models, and VLMs, with deepfake detection leveraging metadata analysis.

Topics

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 5

Languages