Качество распознавания 1 слово из 100 - оно так и должно работать? В моем аудио более 100 слов, которые на слух хорошо читаются, но из всех этих слов распознано корректно только одно Это решение вообще должно работать из коробки? Или его надо как то дообучать?