Data Mining atau bisa disebut menambang data merupakan proses analisa yang dilakukan secara otomatis pada data yang kompleks dan berjumlah besar untuk memperoleh sebuah pola atau kecenderungan yang tidak disadari. Data Mining sendiri terbagi menjadi 2 jenis yaitu Supervised Methods dan Unsupervised Methods.Â
Supervised Methods berarti target variabel sebelumnya telah ditentukan, dan algoritma yang digunakan dapat belajar dari nilai variabel target yang terkait dengan nilai variabel prediktor. Unsupervised Methods berarti tidak ada variabel target yang ditentukan, dan mencari pola dan struktur diantara semua variabel yang ada.
Terdapat beberapa metode dalam melakukan data mining, salah satunya adalah klasifikasi. Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau kelas. Klasifikasi adalah salah satu metode yang paling umum untuk digunakan dalam data mining.Â
Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek yang labelnya belum diketahui. Terdapat beberapa metode klasifikasi yang sering digunakan, yaitu Logistic Regression, Naïve Bayes, Decision Tree, Random Forest, K-Nearest Neighbour, dan Artificial Neural Network. Berikut pengertian dari beberapa klasifikasi tersebut:
- Logistic Regression
Logistic Regression merupakan metode statistik yang merupakan bagian dari analisis regresi yang biasanya digunakan untuk memprediksi kelas biner (angka 0 yang berarti gagal, angka 1 yang berarti berhasil).
- Naive Bayes
Naive Bayes merupakan metode klasifikasi yang berakar pada teorema Bayes yang memiliki konsep dasar peluang bersyarat, memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya.
- Decision Tree
Decision Tree merupakan model prediksi dengan menggunakan struktur pohon atau struktur hierarki, konsepnya adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan.
- Random Forest
Random Forest merupakan metode yang digunakan untuk klasifikasi dan regresi, bisa dibilang Random forest merupakan kumpulan dari metode Decision Tree sebagai dasarnya, yang dibangun dan dikombinasikan.
- K-Nearest Neighbour
K-Nearest Neighbour merupakan metode klasifikasi yang mengelompokan data baru berdasarkan jarak data baru tersebut ke tetangga terdekat.
- Artificial Neural Network
Artificial Neural Network merupakan model klasifikasi yang meniru cara kerja dari sistem jaringan syaraf biologi otak manusia.
Jika dibandingkan, beberapa metode klasifikasi diatas memiliki kelebihan dan kekurangan masing-masing. Untuk dapat menentukan mana metode klasifikasi yang paling baik sebenarnya tergantung apa yang dibutuhkan, antara akurasi atau interpretasi. Agar lebih jelasnya, berikut terdapat grafik perbandingan antar metode klasifikasi data mining.
Dari grafik diatas dapat terlihat bahwa semakin tinggi akurasinya maka interpretasinya akan semakin rendah, begitu pula sebaliknya semakin tinggi interpretasinya maka akurasinya akan semakin rendah. Performa dari metode klasifikasi bisa dipengaruhi oleh beberapa hal, salah satunya adalah saat pembersihan data.Â
Jika data yang digunakan tidak bersih, terdapat banyak outlier, missing value, dan masalah-masalah lainnya, tentunya hasil klasifikasi yang didapatkan tidak akan maksimal. Confusion Matrix juga bisa digunakan untuk menghitung kualitas dari metode klasifikasi yang digunakan, dengan menghitung akurasi, sensitivitas, spesifisitas, presisi, dan F-Score.
Follow Instagram @kompasianacom juga Tiktok @kompasiana biar nggak ketinggalan event seru komunitas dan tips dapat cuan dari Kompasiana
Baca juga cerita inspiratif langsung dari smartphone kamu dengan bergabung di WhatsApp Channel Kompasiana di SINI