Skip to content

al-ogr/sf_pr3_booking_reviews

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

drawing

Проект: Модель предсказания оценки отзыва посетителя отеля

Оглавление

1. Описание проекта
2. Какой кейс решаем?
3. Краткая информация о данных
4. Результаты

Описание проекта

Одна из проблем компании Booking.com — это нечестные отели, которые накручивают себе рейтинг. Одним из способов обнаружения таких отелей является построение модели, которая предсказывает рейтинг отеля. Если предсказания модели сильно отличаются от фактического результата, то, возможно, отель ведёт себя нечестно, и его стоит проверить.

⬆️к оглавлению

Какой кейс решаем?

В рамках данного проекта необходимо создать модель предсказания оценки отзыва посетителя отеля с использованием алгоритма RandomForestRegressor. Для оценки точности прогнозов, сделанных моделью, использовать метрику MAPE (mean absolute percentage error - средняя абсолютная процентная ошибка).

Проект включает в себя несколько этапов:

  • удаление строковых значений;
  • очистка от пропущенных значений;
  • создание новых признаков;
  • преобразование признаков;
  • отбор признаков.

Критерии оценивания

  • Качество кода. Оформление проекта.
  • Очистка данных.
  • Исследование данных.
  • Генерация признаков.
  • Отбор признаков.
  • Преобразование признаков.
  • Качество решения: метрика MAPE меньше 13.5%.

Что практикуем

  • Проведение базового анализа структуры данных.
  • Проведение разведывательного анализа.
  • Статистический анализ данных, формирование и проверка гипотез.
  • Построение и оценка предсказательной модели.
  • Улучшение качества модели.

⬆️к оглавлению

Краткая информация о данных

Данные представлены в соревновании Kaggle [SF-DST] Booking reviews:

Файлы данных:

  • hotels_train.csv - набор данных для обучения
  • hotels_test.csv - набор данных для оценки качества
  • submission.csv - файл сабмишна в нужном формате

Признаки:

  • hotel_address - адрес отеля;
  • review_date - дата, когда рецензент разместил соответствующий отзыв;
  • average_score - средний балл отеля, рассчитанный на основе последнего комментария за последний год;
  • hotel_name - название отеля;
  • reviewer_nationality - национальность рецензента;
  • negative_review - отрицательный отзыв, который рецензент дал отелю;
  • review_total_negative_word_counts - общее количество слов в отрицательном отзыв;
  • positive_review - положительный отзыв, который рецензент дал отелю;
  • review_total_positive_word_counts - общее количество слов в положительном отзыве;
  • reviewer_score - оценка, которую рецензент поставил отелю на основе своего опыта;
  • total_number_of_reviews_reviewer_has_given - количество отзывов, которые рецензенты дали в прошлом;
  • total_number_of_reviews - общее количество действительных отзывов об отеле;
  • tags - теги, которые рецензент дал отелю;
  • days_since_review - продолжительность между датой проверки и датой очистки;
  • additional_number_of_scoring - есть также некоторые гости, которые просто поставили оценку сервису, а не оставили отзыв. Это число указывает, сколько там действительных оценок без проверки;
  • lat - широта отеля;
  • lng - долгота отеля.

⬆️к оглавлению

Результаты

В ходе выполнения задания построена предсказательная модель оценки отзыва посетителя отеля. Ноутбук booking_reviews.ipynb содержит решение, полученная модель обеспечивает рассчетную среднюю абсолютную процентную ошибку (MAPE) в размере 12.36%, контрольные тестовые данные соревнования на платформе Kaggle - 12.47%, что удовлетворяет условию задачи в полном объеме.

⬆️к оглавлению

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published