Data Mining atau bisa disebut menambang data merupakan proses analisa yang dilakukan secara otomatis pada data yang kompleks dan berjumlah besar untuk memperoleh sebuah pola atau kecenderungan yang tidak disadari. Data Mining sendiri terbagi menjadi 2 jenis yaitu Supervised Methods dan Unsupervised Methods.Â
Supervised Methods berarti target variabel sebelumnya telah ditentukan, dan algoritma yang digunakan dapat belajar dari nilai variabel target yang terkait dengan nilai variabel prediktor. Unsupervised Methods berarti tidak ada variabel target yang ditentukan, dan mencari pola dan struktur diantara semua variabel yang ada.
Terdapat beberapa metode dalam melakukan data mining, salah satunya adalah klasifikasi. Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau kelas. Klasifikasi adalah salah satu metode yang paling umum untuk digunakan dalam data mining.Â
Metode ini dilakukan bertujuan untuk memperkirakan kelas dari suatu objek yang labelnya belum diketahui. Terdapat beberapa metode klasifikasi yang sering digunakan, yaitu Logistic Regression, Naïve Bayes, Decision Tree, Random Forest, K-Nearest Neighbour, dan Artificial Neural Network. Berikut pengertian dari beberapa klasifikasi tersebut:
- Logistic Regression
Logistic Regression merupakan metode statistik yang merupakan bagian dari analisis regresi yang biasanya digunakan untuk memprediksi kelas biner (angka 0 yang berarti gagal, angka 1 yang berarti berhasil).
- Naive Bayes
Naive Bayes merupakan metode klasifikasi yang berakar pada teorema Bayes yang memiliki konsep dasar peluang bersyarat, memprediksi peluang di masa depan berdasarkan pengalaman di masa sebelumnya.
- Decision Tree
Decision Tree merupakan model prediksi dengan menggunakan struktur pohon atau struktur hierarki, konsepnya adalah mengubah data menjadi pohon keputusan dan aturan-aturan keputusan.
- Random Forest
Random Forest merupakan metode yang digunakan untuk klasifikasi dan regresi, bisa dibilang Random forest merupakan kumpulan dari metode Decision Tree sebagai dasarnya, yang dibangun dan dikombinasikan.
- K-Nearest Neighbour
K-Nearest Neighbour merupakan metode klasifikasi yang mengelompokan data baru berdasarkan jarak data baru tersebut ke tetangga terdekat.
- Artificial Neural Network
Artificial Neural Network merupakan model klasifikasi yang meniru cara kerja dari sistem jaringan syaraf biologi otak manusia.