Название исследуемой задачи: | Исправление грамматических ошибок в домене низкоресурсных языков |
---|---|
Тип научной работы: | НИР |
Автор: | Хабутдинов Ильдар Айратович |
Научный руководитель: | к.ф-м.н, Грабовой Андрей Валериевич |
В данной работе представлены два исследования, посвящённые задаче исправления грамматических ошибок в текстах с использованием подхода Sequence Tagging. В первом исследовании описывается адаптация модели GECToR для русского языка. С учетом недостатка размеченных данных, для обучения модели был создан синтетический набор данных. Разработанная модель показала хорошие результаты на синтетических данных
Во втором исследовании предлагается полностью автоматизированный, не требующий разметки подход к решению задачи исправления грамматических ошибок. Метод основан на генерации данных с использованием алгоритма Левенштейна для исправления грамматических ошибок на уровне подслов с использованием правил: keep, append, replace и delete. Подход универсален для любого языка и не требует дополнительной разметки. Применение данного метода к оригинальной модели GECToR позволило достичь конкурентных результатов на английском языке:
Таким образом, совместное рассмотрение обоих исследований демонстрирует возможности применения и адаптации Sequence Tag-ging моделей как для языков с достаточным количеством размеченных данных, так и для языков, где количество таких данных ограничено.
- RuGECToR: Rule-Based Neural Network Model for Russian Language Grammatical Error Correction
- Automatic Spelling Correction for Russian: Multiple Error Approach