Společnost má zájem o automatizaci procesu schvalování půjček na základě informací poskytnutých zákazníky při vyplňování online žádosti. Vývoj modelů strojového učení by měl společnosti umožnit lépe předpovídat schválení půjčky a zároveň urychlit rozhodování o tom, zda žadatel splňuje podmínky pro její získání.
- Jupyter Notebook – Predikce schválení půjčky + Postup
- CSV – Dataset
- Analyzovat zákaznická data poskytnutá v datové sadě (EDA)
- Vytvořit různé modely strojového učení, které dokážou předpovědět schválení půjčky
Modely strojového učení použité v tomto projektu:
- Logistic Regression
- K-Nearest Neighbour (KNN)
- Support Vector Machine (SVM)
- Naive Bayes
- Decision Tree
- Random Forest
- Gradient Boost
Tato datová sada obsahuje 13 proměnných:
- 8 kategoriálních proměnných,
- 4 spojité proměnné a
- 1 proměnnou pro identifikátor půjčky (Loan ID).
- 614 záznamů
- Loan_ID – Referenční číslo půjčky (unikátní ID)
- Gender – Pohlaví žadatele (Muž nebo Žena)
- Married – Rodinný stav žadatele (ženatý/vdaná nebo svobodný/á)
- Dependents – Počet členů rodiny
- Education – Vzdělání/kvalifikace žadatele (vysokoškolské nebo nižší)
- Self_Employed – Zaměstnanecký status žadatele (ano – OSVČ, ne – zaměstnaný/jiný)
- ApplicantIncome – Měsíční příjem žadatele
- CoapplicantIncome – Měsíční příjem spolužadatele
- LoanAmount – Požadovaná částka půjčky
- Loan_Amount_Term – Doba splatnosti půjčky (v dnech)
- Credit_History – Záznam o předchozí úvěrové historii (0: špatná, 1: dobrá)
- Property_Area – Umístění nemovitosti (venkov / příměstská / městská oblast)
- Loan_Status – Stav žádosti o půjčku (Y: schváleno, N: zamítnuto)
Obecně lze říci, že všechny modely mohou dosáhnout až 70% přesnosti. Nejvyšší dosažená přesnost je 81 %.