Skip to content

al-ogr/sf_pr2_job_analysis_hh_sql

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

drawing

Проект: Анализ вакансий из HeadHunter

Оглавление

1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Результаты

Описание проекта

Кадровому агентству, которое подбирает вакансии для IT-специалистов, необходима модель машинного обучения, которая будет рекомендовать вакансии клиентам агентства, претендующим на позицию Data Scientist.

⬆️к оглавлению

Какой кейс решаем?

В рамках данного проекта необходимо понять, что из себя представляют данные и насколько они соответствуют целям проекта. В литературе эта часть работы над ML-проектом называется Data Understanding, или анализ данных.

Проект включает в себя несколько этапов:

  • знакомство с данными;
  • предварительный анализ данных;
  • детальный анализ вакансий;
  • анализ работодателей;
  • предметный анализ.

Отчёт должен содержать ответы на задания, приведенные в ноутбуке-шаблоне.

Требования к оформлению ноутбука-решения

  • Решение оформляется только в Jupyter Notebook.
  • Решение оформляется в соответствии с ноутбуком-шаблоном.
  • Каждое задание выполняется в отдельной ячейке, выделенной под задание (в шаблоне они помечены как ваш код здесь).
  • Текст SQL-запросов и код на Python должны быть читаемыми.
  • Выводы по каждому этапу оформляются в формате Markdown в отдельной ячейке (в шаблоне они помечены как ваши выводы здесь).
  • Выводы можно дополнительно проиллюстрировать с помощью графиков.
  • Не забудьте удалить ячейку с данными соединения перед фиксацией работы в GitHub.
    Комментарий: реализовано хранение параметров подключения в файле .env, располагающемся в корне директории ноутбука-шаблона. Содержимое файла:
DBNAME = ХХХХХХ
USER = ХХХХХХ
PASSWORD = ХХХХХХ
HOST = 111.111.111.111
PORT = 1111

DBNAME - название базы данных
USER - имя пользователя в СУБД
PASSWORD - пароль
HOST - IP-адрес сервера, по которому нужно подключиться
PORT - порт, к которому нужно подключиться

Что практикуем

  • Построение SQL-запросов.
  • Проведение базового анализа структуры данных.
  • Проведение разведывательного анализа.

⬆️к оглавлению

Краткая информация о данных

Схема данных:

drawing

Описание таблиц.

VACANCIES

Таблица хранит в себе данные по вакансиям и содержит следующие столбцы:

drawing

Зарплатная вилка — это верхняя и нижняя граница оплаты труда в рублях (зарплаты в других валютах уже переведены в рубли). Соискателям она показывает, в каком диапазоне компания готова платить сотруднику на этой должности.

AREAS

Таблица-справочник, которая хранит код региона и его название.

drawing

EMPLOYERS

Таблица-справочник со списком работодателей.

drawing

INDUSTRIES

Таблица-справочник вариантов сфер деятельности работодателей.

drawing

EMPLOYERS_INDUSTRIES

Дополнительная таблица, которая существует для организации связи между работодателями и сферами их деятельности.

Эта таблица нужна нам, поскольку у одного работодателя может быть несколько сфер деятельности (или работодатели могут вовсе не указать их). Для удобства анализа необходимо хранить запись по каждой сфере каждого работодателя в отдельной строке таблицы.

drawing

⬆️к оглавлению

Результаты

В ходе выполнения задания проведена работа по анализу вакансий с использованием python и SQL-запросов, сформированы выводы по блокам заданий и общий вывод в конце по результатам анализа имеющихся данных по вакансиям. Отчет сформирован в формате .ipynb с применением библиотеки визуализации данных Plotly.

⬆️к оглавлению

About

SkillFactory DataScience PROJECT-2. Анализ вакансий из HeadHunter

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published