- Проработать проблематику (в чем смысл для бизнеса)
- Грамотно формализовать задачу
- Проанализировать имеющиеся данные и оценить их пригодность для решения поставленной задачи
- Провести первичный разведочный анализ данных (EDA)
- Проанализировать имеющиеся решения
- Обозначить основные плюсы и минусы каждого из потенциальных решений
- Выбрать подходящее решение (алгоритм или набор алгоритмов) для данной задачи и обосновать его
- Сформировать обучающую выборку
- Спроектировать схему валидации с учетом специфики задачи
- Обосновать выбор способа валидации
- Выбрать метрику оценки качества и обосновать выбор
- Разработать baseline (может быть несколько алгоритмов)
- Реализовать выбранное решение/я
- Протестировать работу baseline
- Выбрать итоговое решение для дальнейшей оптимизации и обосновать выбор
- Оптимизировать работу выбранного решения
- Подобрать гиперпараметры
- Проанализировать насколько улучшилось качество работы алгоритма
- Проанализировать важные признаки
- Реализовать итоговое решение в виде набора python-скриптов
- Добавить логирование
- Обернуть полученный набор скриптов в Docker-образ
- По желанию можно сделать UI (например, использовав Streamlit)
- Подготовить итоговую презентацию с отображением всех этапов работы, результатов (до 10 слайдов)