Описание
Этот проект использует алгоритм распознавания речи для обработки аудиофайлов. Установка и использование
Перед использованием убедитесь, что все зависимости установлены. Для этого выполните следующую команду в терминале:
pip install -r requirements.txt
Использование через командную строку (CLI): Для первого запуска необходим bash скрипт который загрузит модель и недостающие библиотеки (выполняется автоматически при запуске main.py, либо вручную):
sh init_bash.sh
Для запуска алгоритма распознавания используйте следующую команду:
python3 main.py --file "file_name" --speed 1.0 --volume 1.0 --language 'ru' | 'en'
file: имя файла, который вы хотите обработать.
speed: скорость воспроизведения (по умолчанию 1.0, можно изменить).
volume: громкость воспроизведения (по умолчанию 1.0, можно изменить).
language: опциональный флаг дающий возможность вручную выбрать распознаваемый язык: 'ru' или 'en' (по-умолчанию, выбирается автоматически моделью).
Результаты: Результаты работы алгоритма сохраняются в папку result/ в файл recognized_log.json
Примечание Перед использованием убедитесь, что звуковые файлы находятся в папке data/
Обработанные звуковые файлы (изменение скорости и(или) громкости) сохраняются в папку result/changed_sound/
При распознавании в CLI будет выведено сообщение с результатом распознавания.
Из-за недостатка вычислительной мощности, была использована предобученная модель open-ai/whisper базовой версии.
Была добавлена возможность вручную указать язык распознавания.