Skip to content

20babyz/FISHER

Repository files navigation

FISHER: Fraudulent Incoming Speech Handling and Event Recorder

Capstone Design Final Project
팀명: 20 애기들
팀원: 성영준, 오현택, 윤종우, 조민혁
학과: Mobile System Engineering


프로젝트 개요

FISHER는 실시간 통화 음성 데이터를 분석해 보이스피싱 및 딥보이스(음성 합성) 위협을 탐지하고, 통화 내용을 자동 기록·요약·일정 등록·포렌식 레포트화까지 지원하는 AI 기반 통합 모바일 보안 서비스입니다.

  • 목표
    • 실시간 보이스피싱 및 딥보이스 탐지
    • 통화 내용 STT 및 요약
    • 일정 자동 추출 및 캘린더 연동
    • 법적 효력의 포렌식 타임라인 리포트 생성[1]

주요 기능 및 시스템 구조

Total-arch

1. AI 기반 보이스피싱 탐지

  • 멀티모달 탐지 모델(MS-Module)
    • M-Module: 음성 데이터 전처리, 화자 분리, Whisper 기반 STT, 역할 분류
    • S-Module: KoBERT 기반 문장 분류기로 보이스피싱 여부 판별
    • 실제 통화 데이터를 크롤링 및 라벨링하여 학습, 높은 정밀도(F1-score 0.98, ROC-AUC 0.9995) 달성[1]

2. 딥보이스(음성 합성) 탐지

  • CNN + Bi-GRU + Attention 딥러닝 모델
  • ASVspoof2019_LA 데이터셋 활용
  • Mel-Spectrogram 변환, 데이터 증강, Z-score 정규화 등 전처리
  • 테스트셋 F1-score 0.9989, ROC-AUC 0.9997로 매우 높은 성능[1][3]

3. 통합 모바일 프론트엔드 (React Native)

  • 주요 기능
    • 통화 이벤트 감지 (react-native-callkeep)
    • 오디오 파일 업로드 및 AI 분석 요청
    • 위험도 게이지바, 위험 번호 등록
    • 일정 자동 추출/등록, 사용자 편의성 극대화
  • UI/UX
    • Tailwind 기반 NativeWind 적용
    • 실시간 위험도 시각화, 직관적 인터페이스[1]

4. 백엔드/AI 서버 아키텍처

  • 구성
    • Go 기반 API 서버, FastAPI 기반 AI 서버(보이스피싱/딥보이스), Redis, MongoDB, MicroK8s 클러스터
    • RESTful API, 모델 1회 로딩, torch.no_grad(), 입력 전처리 최적화 등으로 실시간 응답(0.3~0.5초)
    • 모든 결과는 캐시(Redis) 및 영구 저장(MongoDB)[1]

전체 동작 흐름

  1. 통화 이벤트 감지 (Android/iOS)
  2. 오디오 데이터 수집 및 업로드
  3. AI 서버 분석
    • 보이스피싱 탐지 → 딥보이스 탐지 순차 실행
    • 결과(위험도, 딥보이스 여부) 반환
  4. 프론트엔드 시각화 및 사용자 행동 유도
    • 위험도 게이지, 위험 번호 등록, 일정 자동 등록
  5. 포렌식 리포트 및 데이터 관리
    • 타임라인, 해시 기반 무결성, 법적 증거 활용 가능[1]

성능 및 평가

모델 F1-score ROC-AUC 특징
보이스피싱 0.9846 0.9995 KoBERT, 멀티모달
딥보이스 0.9989 0.9997 CNN+Bi-GRU+Attention
  • 테스트셋 기준, 실제 환경에서도 높은 신뢰도
  • 실시간 처리, 클래스 불균형 및 unseen 공격 유형에 대한 일반화 성능 확보[1][3]

한계점 및 향후 발전 방향

한계점

  • Android 10+에서 통화 녹음/이벤트 감지 제약, iOS 미지원
  • 실시간 스트리밍 분석 미구현
  • AI 결과 설명(Explainable AI) 부족
  • 보이스피싱/딥보이스 탐지 모두 데이터셋 한계 및 일반화 이슈

향후 발전

  • 실시간 오디오 스트리밍 분석, 푸시 알림 강화
  • Explainable AI, 시계열 통계/히트맵 등 예방 정보 제공
  • iOS/크로스플랫폼 지원 확대
  • 멀티모달(음성+텍스트+화자정보) 탐지, 경계 사례 데이터 보강
  • API/AI 서버간 TCP 메시지 통신, 비동기 처리, Webhook/SSE 도입[1]

설치 및 실행 방법

  1. 모바일 앱
    • React Native 환경 구축, Android/iOS 권한 설정
    • npm install, npx react-native run-android 또는 run-ios
  2. 백엔드/AI 서버
    • MicroK8s 클러스터, Docker 컨테이너 기반 배포
    • Go API 서버, FastAPI AI 서버(모델 가중치 필요)
    • MongoDB/Redis 연동 설정
  3. 사용법
    • 통화 이벤트 발생 → 오디오 자동/수동 업로드 → 결과 확인 및 행동(위험번호 등록 등)

참고 자료

  • [Capstone-Design-20aegideul_Final_Report_ver1.pdf][1]
  • AI-HUB, ASVspoof2019_LA 등 공개 데이터셋 활용
  • 관련 논문 및 보안 동향 참고[3][4]

프로젝트 소감

본 프로젝트를 통해 AI 기술로 실제 사회문제(보이스피싱, 딥보이스 등)에 대응하는 실질적 서비스의 가능성을 확인하였으며, 기술적·협업적 역량을 크게 성장시킬 수 있었습니다. 앞으로도 기술을 통해 현실 문제를 해결하는 데 기여하고자 합니다[1].

About

Voice-Fishing and Deepvoice Detecting Service

Topics

Resources

Stars

Watchers

Forks

Contributors 2

  •  
  •