Klusterisasi Resiko Kredit Kustomer Menggunakan Data Science Halaman all

PT Zona Edukasi Nusantara (Zenius) bersama Kampus Merdeka Batch 3 membuka Program Zenius Studi Independen Bersertifikat (PZIB). Saya Ama Febriyanti, mahasiswa prodi S1 Akuntansi Universitas Negeri Malang berkesempatan bergabung dalam program tersebut. Saya diterima di learning path Data analytics dengan Kak Hariyanto Wicaksono selaku mentor. Dalam pelaksanaannya, saya juga mendapatkan bimbingan dari Dosen dari kampus saya yaitu Bapak Tomy Rizky Izzalqurny, S.E., M.S.A. CBV, CAP. Dalam kesempatan ini, saya akan membagikan pengetahuan yang saya peroleh melalui penugasan Topic 19 - Assignment | Rancangan Use Case Data Science. Dalam penugasan ini, saya membuat use case klusterisasi resiko kredit kustomer.

Perbankan menurut Undang-undang Nomor 10 Tahun 1998 tentang Perbankan, merupakan badan usaha yang menghimpun dana dari masyarakat dalam bentuk simpanan dan menyalurkannya kepada masyarakat dalam bentuk kredit dan atau bentuk-bentuk lainnya dalam rangka meningkatkan taraf hidup masyarakat. Saat ini, data telah menjadi aset paling berharga di bidang ini. Untuk itu, ilmu data akan sangat bermanfaat ketika digunakan misalnya dalam hal, analisis resiko investasi, prediksi nilai lifetime customer, segmentasi customer, prediksi churn rate customer dan yang paling umum adalah untuk mendeteksi fraud atau penipuan.

Salah satu manfaat ilmu data adalah mendeteksi resiko kredit customer. Hal ini penting untuk menganalisis historis perilaku kredit peminjam. Dengan memahami faktor-faktor yang berkontribusi pada kemungkinan gagal bayar peminjam, bank dapat membuat keputusan secara lebih tepat tentang siapa yang akan dipinjami uang, berapa banyak yang akan diperpanjang, dan kapan harus menarik kembali. Penggunaan alogaritma data analysis akan sangat mempermudah dalam hal ini karena dapat secara otomatis mengidentifikasi pola dalam data yang tidak dapat dilihat manusia. Berikut merupakan rancangan use case untuk mendeteksi credit risk.

Data Understanding

Dalam rancangan use case ini digunakan dataset Geman Credit Risk dengan format csv yang diambil dari kaggle (Dataset German Credit Risk). Dataset tersebut berisi informasi mengenai 1000 orang Jerman, batas kredit, dan pinjaman, serta sembilan parameter yang berbeda seperti usia, jenis kelamin, pekerjaan, perumahan dll. Setiap baris mewakili orang yang telah mengambil pinjaman. Adapun variabel dalam data ini antara lain: Age (Usia peminjam atau customers), Sex (Jenis kelamin peminjam / male or female), Job (Pekerjaan peminjam), Housing (Tipe Rumah), Saving accounts (Jenis tabungan yang menunjukan kecenderungan peminjam untuk menabung), Checking account (Saldo di rekening giro (Mata Uang: DM - Deutsche Mark)), Credit amount (Batas kredit yang digunakan oleh pemegang rekening), Duration (durasi pinjaman dalam bulan), dan Purpose (Tujuan penggunaan pinjaman). Sasaran use case ini adalah untuk mengidentifikasi resiko pinjaman dari customers dan mengklasifikasikannya menjadi Good dan Bad dimana,

Good: Resiko baik dari perspektif bank dan lebih mungkin memulihkan pinjaman.
Bad: Resiko buruk dari perspektif bank dan kecil kemungkinannya untuk memulihkan pinjaman, lebih banyak kemungkinan gagal bayar.

Data Preparation

Tahap selanjutnya adalah menyiapkan data yaitu, pertama dengan mengimportnya terlebih dahulu ke IDE for python yaitu google colabs untuk di analisis dan dibersihkan terlebih dahulu. Dari proses tersebut diketahui bahwa lebar data adalah 9 kolom dan 1000 baris. Dengan lima variabel bertipe object atau data categorical dan empat variabel dengan tipe integer atau data nominal. Setelah itu, dilanjutkan dengan data cleansing yaitu mengecek data null terlebih dahulu. Kemudian diketahui bahwa Masih ada data yang kosong yaitu pada kolom saving accounts dan checking accounts. Setelah itu, dilakukan missing handle dengan mengisi data kosong dengan “unknown” atau menunjukkan bahwa informasi data tidak diketahui.

Kemudian, berikut merupakan deskripsi dari dataset, baik variabel nominal maupun categorical,

Dok. pribadi

Berikut merupakan visualisasi distribusi dari masing-masing variabel nominal:

Dok. pribadi

Pada grafik age/umur terjadi pelonjakan kenaikan dari umur 20 ke 25 dan dari 25 sampai 40 merupakan umur yang dengan jumlah terbanyak dan semakin tua umurnya semakin menurun grafik
Pada grafik job label 2 mendominasi dengan jumlah >600
Pada grafik Credit amount paling banyak yaitu pada jumlah credit amount 0-3000 dan untuk semakin besar credit amount semakin sedikit jumlahnya juga
Pada grafik duration didapatkan durasi yang paling banyak diambil oleh nasabah yaitu dengan durasi 2-25 bulan, untuk yang lebih dari itu juga ada tetapi terdapat perbedaan grafik yang cukup berbeda signifikan lebih sedikit.

Adapun untuk variabel categorical, distribusi persebarannya adalah sebagai berikut:

Dok. pribadi

Pada variabel/ kolom Sex: Nasabah kredit bank lebih banyak dari gender laki-laki.
Pada variabel/ kolom Housing: Nasabah kredit bank paling banyak sudah memiliki rumah sendiri.
Pada variabel/ kolom Saving accounts: Nasabah kredit bank didominasi yang memiliki jumlah tabungan dengan jumlah sedikit.
Pada variabel/ kolom Checking accounts: Nasabah kredit bank didominasi dengan nasabah yang tidak diketahui statusnya.
Pada variabel/ kolom Purpose: Nasabah kredit bank didominasi yang memiliki tujuan kredit yaitu untuk membeli mobil dan 3 tujuan tertinggi dibawahnya yaitu : radio/TV, furnitur/perlengkapan dan bisnis.

Adapun korelasi dari masing-masing variabel nominal jika divisualisasikan dengan heatmap adalah sebagai berikut:

Dok. pribadi

Modeling

Karena tidak semua variabel adalah nominal, sebelum melakukan modeling data, data categorical harus ditranformasikan menjadi tipe data integer terlebih dahulu menggunakan syntax encoder sebagai berikut:

Dok. pribadi

Adapun korelasi antar variabel setelah dilakukan encoding adalah sebagai berikut:

Dok. pribadi

Untuk mencapai tujuan dari use case yaitu mengidentifikasi dan mengklasifikasikan customer menjadi dua ketegori resiko yaitu Good and Bad Customer maka digunakan model clustering dengan mengklasterisasikan data menjadi 2 kluster. Dari modeling tersebut data diklasterisasikan menjadi klaster 0 dan klaster 1. Kemudian, klaster 1 didefinisikan sebagai Good customers karena berdasarkan hubungan berbagai variabel durasi pengembalian pinjaman customer cenderung singkat. Sedangkan Klaster 0 didefinisikan sebagai Bad Customers karena melihat korelasi dari berbagai variabel seperti misalnya, usia yang sudah tua, jumlah kredit yang besar, durasi pengembaliannya cenderung lama atau berpotensi gagal bayar. Sehingga diperoleh hasil bahwa 82,7% adalah Good Customers dan 17,3% adalah Bad Customers.

Dok. pribadi

Adapun evaluasi dari modeling ini adalah sebagai berikut:

Dok. pribadi

Pertama, untuk evaluasi kluster seharusnya yang optimal adalah 4 cluster. Namun, karena disini tujuannya hanya ingin mengklasifikasikannya menjadi Good dan Bad, maka pada K-means hanya menggunakan nilai cluster=2. Berikut juga dikembangkan model testing dan evaluasi keakuratan model.

Dok. pribadi

Keakuratan model yang dikembangkan adalah sekitar 99%.

Dashboard Development

Dasboard German Credit Risk

Referensi:

https://www.datacamp.com/blog/data-science-use-cases-guide

https://www.datacamp.com/blog/data-science-in-banking

https://www.kaggle.com/code/raniaprillyap/clustering-german-credit-data-nasabah-bank-kredit/notebook

https://www.kaggle.com/code/lakdawalaparth/german-credit-risk-analysis/report

https://deepnote.com/@leonard-puttmann-a8ef/Predicting-Credit-Risk-German-Credit-Dataset-d545c2e7-6e1d-4e8f-bbaa-5e4262124159

https://www.datascience-pm.com/crisp-dm-2/

Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H

HALAMAN :

LIHAT SEMUA

Mohon tunggu...

Lihat Financial Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

Klusterisasi Resiko Kredit Kustomer Menggunakan Data Science

bank

data science

clustering

credit

financial

money

Artikel Lainnya

LAPORKAN KONTEN

Pentingnya Rekam Jejak Kredit dan Faktor-faktor yang Mempengaruhinya dalam Pengajuan Pinjaman

Data Tidak Akurat? Data Science Bisa Membantu Keputusan Tepat!

Pengertian dan Hubungan antara Instrumentasi dalam Pengumpulan Data

Klusterisasi Resiko Kredit Kustomer Menggunakan Data Science

bank

data science

clustering

credit

financial

money

Artikel Lainnya

LAPORKAN KONTEN