Skip to content

keiVision/VoiceRecognizer

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

20 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Описание

Этот проект использует алгоритм распознавания речи для обработки аудиофайлов. Установка и использование

Перед использованием убедитесь, что все зависимости установлены. Для этого выполните следующую команду в терминале:

pip install -r requirements.txt

Использование через командную строку (CLI): Для первого запуска необходим bash скрипт который загрузит модель и недостающие библиотеки (выполняется автоматически при запуске main.py, либо вручную):

sh init_bash.sh 

Для запуска алгоритма распознавания используйте следующую команду:

python3 main.py --file "file_name" --speed 1.0 --volume 1.0 --language 'ru' | 'en'

    file: имя файла, который вы хотите обработать.
    speed: скорость воспроизведения (по умолчанию 1.0, можно изменить).
    volume: громкость воспроизведения (по умолчанию 1.0, можно изменить).
    language: опциональный флаг дающий возможность вручную выбрать распознаваемый язык: 'ru' или 'en' (по-умолчанию, выбирается автоматически моделью).

Результаты: Результаты работы алгоритма сохраняются в папку result/ в файл recognized_log.json

Примечание Перед использованием убедитесь, что звуковые файлы находятся в папке data/

Обработанные звуковые файлы (изменение скорости и(или) громкости) сохраняются в папку result/changed_sound/

При распознавании в CLI будет выведено сообщение с результатом распознавания.

Из-за недостатка вычислительной мощности, была использована предобученная модель open-ai/whisper базовой версии.

Была добавлена возможность вручную указать язык распознавания.

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published