1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Результаты
Компании HeadHunter для построения модели автоматического определения примерного уровеня заработной платы, подходящей пользователю, на базе информации, которую он указал о себе, необходимо получить подготовленный датасет.
Проблематика: часть соискателей не указывает желаемую заработную плату, когда составляет своё резюме, что является помехой для рекомендательной системы HeadHunter, которая подбирает соискателям список наиболее подходящих вакансий, а работодателям — список наиболее подходящих специалистов.
Необходимо подготовить отчёт о проделанной работе в виде ноутбука. Отчёт должен содержать ответы на задания, приведенные в ноутбуке-шаблоне.
Требования к оформлению ноутбука-решения
- Решение оформляется только в Jupyter Notebook.
- Решение оформляется в соответствии с ноутбуком-шаблоном.
- Каждое задание выполняется в отдельной ячейке, выделенной под задание.
- Код для каждого задания оформляется в одной-двух jupyter-ячейках.
- Решение должно использовать только пройденный материал: переменные, основные структуры данных (списки, словари, множества), циклы, функции, библиотеки numpy, pandas, matplotlib, seaborn, plotly.
- Код должен быть читаемым и понятным.
- Использование руководства PEP 8.
- Графики оформляются в соответствии с теми правилами, приведенными в модуле по визуализации данных.
- Обязательное требование: графики должны содержать название, отражающее их суть, и подписи осей.
- Выводы к графикам оформляются в формате Markdown под самим графиком в отдельной ячейке.
Что практикуем
- Проведение базового анализа структуры данных.
- Преобразование данных.
- Проведение разведывательного анализа.
- Проведение очистки данных.
База резюме, выгруженная с сайта поиска вакансий hh.ru представлена в файле dst-3.0_16_1_hh_database.csv
При приведении заработной платы к единой валюте используется выгрузка курсов валют, которые встречаются в наших данных за период с 29.12.2017 по 05.12.2019: ExchangeRates.zip
В ходе выполнения задания сформирован отчет в формате .ipynb с применением библиотеки визуализации данных Plotly, в конце которого получен набор данных, очищенный от выбросов и пропущенных значений. В директории charts содержатся файлы полученных графиков, сохраненные в формате html.