Adapun untuk variabel categorical, distribusi persebarannya adalah sebagai berikut:
- Pada variabel/ kolom Sex: Nasabah kredit bank lebih banyak dari gender laki-laki.
- Pada variabel/ kolom Housing: Nasabah kredit bank paling banyak sudah memiliki rumah sendiri.
- Pada variabel/ kolom Saving accounts: Nasabah kredit bank didominasi yang memiliki jumlah tabungan dengan jumlah sedikit.
- Pada variabel/ kolom Checking accounts: Nasabah kredit bank didominasi dengan nasabah yang tidak diketahui statusnya.
- Pada variabel/ kolom Purpose: Nasabah kredit bank didominasi yang memiliki tujuan kredit yaitu untuk membeli mobil dan 3 tujuan tertinggi dibawahnya yaitu : radio/TV, furnitur/perlengkapan dan bisnis.
Adapun korelasi dari masing-masing variabel nominal jika divisualisasikan dengan heatmap adalah sebagai berikut:
ModelingÂ
Karena tidak semua variabel adalah nominal, sebelum melakukan modeling data, data categorical harus ditranformasikan menjadi tipe data integer terlebih dahulu menggunakan syntax encoder sebagai berikut:
Adapun korelasi antar variabel setelah dilakukan encoding adalah sebagai berikut:
Untuk mencapai tujuan dari use case yaitu mengidentifikasi dan mengklasifikasikan customer menjadi dua ketegori resiko yaitu Good and Bad Customer maka digunakan model clustering dengan mengklasterisasikan data menjadi 2 kluster. Dari modeling tersebut data diklasterisasikan menjadi klaster 0 dan klaster 1. Kemudian, klaster 1 didefinisikan sebagai Good customers karena berdasarkan hubungan berbagai variabel durasi pengembalian pinjaman customer cenderung singkat. Sedangkan Klaster 0 didefinisikan sebagai Bad Customers karena melihat korelasi dari berbagai variabel seperti misalnya, usia yang sudah tua, jumlah kredit yang besar, durasi pengembaliannya cenderung lama atau berpotensi gagal bayar. Sehingga diperoleh hasil bahwa 82,7% adalah Good Customers dan 17,3% adalah Bad Customers.Â