Skip to content

SMIL-SPCRAS/BiMoDiCA

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

BiMoDiCA

Abstract

Предмет исследования. Научная работа посвящена задаче генерации анимации цифрового аватара с синхронным воспроизведением речи, мимики и жестикуляции на основе бимодального входа – статического изображения и текста с эмоциональной окраской. Исследуется возможность интеграции акустических, визуальных и аффективных признаков в единую модель, обеспечивающую реалистичное и выразительное поведение аватара в соответствии с содержанием и эмоциональным тоном высказывания. Метод. Предложен метод под названием BiMoDiCA, включающий шаги извлечения визуальных ориентиров лица, рук и позы, определения пола для выбора подходящего голосового профиля, анализа текста на предмет эмоционального содержания и генерации синтетической аудиоречи. Все признаки интегрируются в генеративной архитектуре на основе диффузионной модели с механизмами временного внимания и межмодального согласования. Это обеспечивает высокую точность синхронизации между речью и невербальными компонентами поведения аватара. Методика эксперимента. Для обучения использовались два специализированных корпуса: один для моделирования жестикуляции, другой для мимики. Аннотирование производилось средствами автоматического извлечения пространственных ориентиров. Эксперименты выполнялись на многопроцессорной вычислительной платформе с графическими ускорителями. Качество работы модели оценивалось с помощью объективных метрик. Основные результаты. Метод показал высокую степень визуального и семантического соответствия: FID – 50,13, FVD – 601,70, SSIM – 0,752, PSNR – 21,997, E-FID – 2,226, Sync-D – 7,003, Sync-C – 6,398. Модель успешно синхронизирует речь с мимикой и жестами, учитывает эмоциональный контекст текста, а также особенности русского жестового языка. Практическая значимость. Разработка может применяться в системах эмоционально-чувствительного человеко-машинного взаимодействия, цифровых ассистентах, образовательных и психологических интерфейсах. Метод представляет интерес для специалистов в области искусственного интеллекта, мультимодальных интерфейсов, компьютерной графики и цифровой психологии.

Acknowledgments

Parts of this project page were adopted from the Nerfies page.

Website License

Creative Commons License
This work is licensed under a Creative Commons Attribution-ShareAlike 4.0 International License.

Releases

No releases published

Packages

No packages published