Название исследуемой задачи: | Методы редукции дисперсии, не предполагающие вычисление полного градиента: повышение эффективности за счёт техники случайного перемешивания батчей |
---|---|
Тип научной работы: | НИР |
Автор: | Алексей Витальевич Ребриков |
Научный руководитель: | к.ф.-м.н., Безносиков Александр Николаевич |
В современном мире машинное обучение невозможно представить без использования больших обучающих выборок и моделей. Это обусловило широкое применение стохастических методов обучения, таких как SGD. Несмотря на простоту, SGD обладает слабыми теоретическими гарантиями сходимости, связанными с неубывающей дисперсией. Данная проблема может быть частично устранена с помощью модификаций, таких как SARAH. Однако эти методы требуют периодического вычисления полного градиента, что может быть затратным по времени. В данной работе были рассмотрены варианты алгоритмов с уменьшением дисперсии, не предполагающие необходимость вычисления полного градиента. Для повышения эффективности по памяти и исключения этих вычислений были использованы два ключевых подхода: эвристика перемешивания и идея, лежащая в основе методов SAG/SAGA. В результате были улучшены существующие оценки для алгоритмов с уменьшением дисперсии без вычисления полного градиента. В случае невыпуклой целевой функции полученная оценка совпадает с классическими методами на основе перемешивания, а для сильно выпуклой задачи достигается улучшение. Проведён всесторонний теоретический анализ, а также представлены масштабные экспериментальные результаты, подтверждающие эффективность и практическую применимость предложенных методов в задачах обучения на больших данных.