1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Результаты
Кадровому агентству, которое подбирает вакансии для IT-специалистов, необходима модель машинного обучения, которая будет рекомендовать вакансии клиентам агентства, претендующим на позицию Data Scientist.
В рамках данного проекта необходимо понять, что из себя представляют данные и насколько они соответствуют целям проекта. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.
Проект включает в себя несколько этапов:
- знакомство с данными;
- предварительный анализ данных;
- детальный анализ вакансий;
- анализ работодателей;
- предметный анализ.
Отчёт должен содержать ответы на задания, приведенные в ноутбуке-шаблоне.
Требования к оформлению ноутбука-решения
- Решение оформляется только в Jupyter Notebook.
- Решение оформляется в соответствии с ноутбуком-шаблоном.
- Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь).
- Текст SQL-запросов и код на Python должны быть читаемыми.
- Выводы по каждому этапу оформляются в формате Markdown в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь).
- Выводы можно дополнительно проиллюстрировать с помощью графиков.
- Не забудьте удалить ячейку с данными соединения перед фиксацией работы в GitHub.
Комментарий: реализовано хранение параметров подключения в файле .env, располагающемся в корне директории ноутбука-шаблона. Содержимое файла:
DBNAME = ХХХХХХ
USER = ХХХХХХ
PASSWORD = ХХХХХХ
HOST = 111.111.111.111
PORT = 1111
DBNAME - название базы данных
USER - имя пользователя в СУБД
PASSWORD - пароль
HOST - IP-адрес сервера, по которому нужно подключиться
PORT - порт, к которому нужно подключиться
Что практикуем
- Построение SQL-запросов.
- Проведение базового анализа структуры данных.
- Проведение разведывательного анализа.
Схема данных:
Описание таблиц.
VACANCIES
Таблица хранит в себе данные по вакансиям и содержит следующие столбцы:
Зарплатная вилка — это верхняя и нижняя граница оплаты труда в рублях (зарплаты в других валютах уже переведены в рубли). Соискателям она показывает, в каком диапазоне компания готова платить сотруднику на этой должности.
AREAS
Таблица-справочник, которая хранит код региона и его название.
EMPLOYERS
Таблица-справочник со списком работодателей.
INDUSTRIES
Таблица-справочник вариантов сфер деятельности работодателей.
EMPLOYERS_INDUSTRIES
Дополнительная таблица, которая существует для организации связи между работодателями и сферами их деятельности.
Эта таблица нужна нам, поскольку у одного работодателя может быть несколько сфер деятельности (или работодатели могут вовсе не указать их). Для удобства анализа необходимо хранить запись по каждой сфере каждого работодателя в отдельной строке таблицы.
В ходе выполнения задания проведена работа по анализу вакансий с использованием python и SQL-запросов, сформированы выводы по блокам заданий и общий вывод в конце по результатам анализа имеющихся данных по вакансиям. Отчет сформирован в формате .ipynb с применением библиотеки визуализации данных Plotly.