Skip to content

vetak8/Open-Battle

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

14 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Open Battle

Хакатон от банка Открытие

Финальное задание в папке MAIN

Отборочные задания:

1. Covid-19

Дана статистика заболеваемости коронавирусом за определенный промежуток в разных странах, записанная в файл covid-19cases.csv. Необходимо:

Произвести очистку данных, убрав пустые столбцы и неинформативные строки (строки, выделенные для заметок for Notes) Определить статистику случаев заражения в разных частях света (столбец continent) за каждый месяц Определить корреляцию каждой части света с другой. Вывести название части света, которая меньше всего коррелирует с другими

2.Gender

В одной компании произошла неприятность: случился потоп, в бумажных анкетах клиентов размыло некоторые строки и в 1000 анкетах пострадало поле “gender”. Конечно, их было бы можно восстановить, но в компании решили автоматизировать решение проблемы и определить пол клиентов по фотографиям. Был создан датасет gender.csv, в котором записаны признаки человека на фото и его пол.

Первые 1000 значений имеют пропуски в столбце gender. Все столбцы с ".1" в названии дублируют предыдущие столбцы без ".1", но содержат уникальные значения Необходимо произвести чистку данных: Присоединить дублирующие столбцы к основным. Столбцы 'nose_wide', 'nose_long', 'lips_thin', 'distance_nose_to_lip_long', 'long_hair' содержат информацию в условных единицах. Известно, что измерения проводились разными людьми с разными измерительными инструментами, поэтому данные в столбцах имеют разную погрешность измерений. Необходимо уменьшить влияние погрешности путем приравнивания значений диапазона [0,0.5) к 0, а [0.5, 1) —- к 1. Столбцы 'orehead_width_cm' и 'forehead_height_cm' необходимо оставить «как есть». Оставить один из дублирующих друг друга столбцов. Определите пол по остальным параметрам из выборки для первой тысячи значений и прикрепите его в CSV формате. Файл должен содержать только прогнозные значения в формате "Male"/"Female", в одном столбце без заголовка

Пороговое значение для данной задачи классификации считать равным 0.5.

Для успешного прохождения достаточно иметь 70% точность решения

3. Paris

Дана выборка недвижимости в Париже в файле ParisHousing.csv Необходимо определить оптимальное число кластеров для данной выборки при помощи метода kMeans с использованием метода “локтя” с шагом 20

4. Airport

Дана база пассажиропотока в некотором аэропорту “Сайнс” с января 2007 г. по 2018 гг. в файле Science.csv Необходимо написать модель для предсказания пассажиропотока и предсказать пассажиропоток в последующие 12 месяцев. Ответ выведите в формате JSON Мерой точности построенной модели является MSE не более 520000.0 от реальных значений

5.Predict

В одной из компаний для найма сотрудников решили создать математическую модель, описывающую зависимость уровня заработной платы от опыта сотрудников. В файлах ‘inputs.npy’, ‘outputs.npy’ даны оценки заработной платы и опыта сотрудников, представленные в своих диапазонах и полученные в результате использования шкалы перевода.

В компании разработали простейшую нейронную сеть model с ошибкой loss. Обучи нейронную сеть предсказывать необходимые значения. В качестве ответа к заданию предскажи 5 точек [1, 2, 3, 4, 5] при помощи нейронной сети любой модели. Ответ выдайте в формате JSON:

6.News

Мы решили торговать на бирже, причем так, чтобы решение о покупке акций принимала нейросеть на основе последних новостей о той или иной компании. Для этого нужно научиться классифицировать все новости. Дана база новостей из разных источников news.csv. Необходимо написать классифицирующую модель новостей по источникам. Напиши любую модель для предсказания источника новостей и предскажите источники для данных из файла news.csv, для которых отсутствует значение Source. Пороговые значения для данной задачи классификации считать равными 0.33, 0.66. Ответ необходимо прикрепить в файле формата CSV. Файл должен содержать только прогнозные значения Source в одном столбце без заголовка. Для успешного прохождения достаточно иметь 70% точность решения

About

Хакатон от банка Открытие

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published