Seperti yang telah dibahas diartikel sebelumnya, proses Data Mining bertujuan untuk menemukan pola pada sekumpulan data yang akan diproses menjadi sebuah informasi. Dalam penerapannya, pencarian pola tersebut dapat memanfaatkan algoritma yang sesuai dengan permasalahan yang ingin dipecahkan. Beberapa metode dengan memanfaatkan algoritma yang umum digunakan dalam proses Data Mining adalah sebagai berikut.
- Metode Klasifikasi
- Metode Asosiasi
- Metode Clustering
Metode Klasifikasi
Pada artikel ini, akan fokus membahas penerapan metode klasfikasi dalam proses Data Mining. Untuk mengawali pembahasan, kita perlu tahu dulu apa itu metode klasifikasi. Metode Klasifikasi ialah metode yang biasa digunakan untuk mengelompokkan data berdasarkan label/kelas yang telah ditentukan sebelumnya. Metode ini berdasarkan pada prinsip belajar dari pengalaman, yang bermaksud bahwa model klasifikasi pertama-tama belajar dari data yang sudah diklasifikasikan ditahap training data sehingga kemudian dapat mengklasifikasikan sampel yang tidak diketahui labelnya.Â
Beberapa algoritma yang digunakan dalam metode klasifikasi ialah:
a. Decision Tree
Decision Tree merupakan algoritma yang paling banyak digunakan dalam pengklasifikasian. Sebuah tree terdiri dari beberapa simpul. Dalam metode ini menggunakan konsep entropi yang digunakan untuk menentukan pada atribut mana sebuah pohon akan terbagi. Semakin tinggi entropy sebuah sampel, semakin tidak murni sampel tersebut. Â Atributnya bersifat kategoris (jika bernilai kontinu, atribut tersebut didiskritisasi terlebih dahulu). Data contoh dipartisi secara rekursif berdasarkan atribut yang dipilih. Klasifikasi menggunakan decision tree dilakukan oleh routing dari simpul akar sampai di simpul daun. Beberapa algoritma decision tree antara lain ID3, C4.5, C5.0, and CART. Contoh penerapan metode decision tree ialah menentukan pilihan untuk bermain di luar rumah dengan memprediksi kondisi cuaca.
Tahapan dalam algoritma Decision Tree ialah:
- Siapkan data training
- Pilih atribut sebagai akar, didasarkan pada nilai gain tertinggi dari atribut yang ada. Gain diperoleh dengan menentukan terlebih dahulu nilai entropi.
- Buat cabang untuk tiap-tiap nilai
- Ulangi proses untuk setiap cabang sampai semua kasus pada cabang memiliki kelas yang sama.
b. Naive Bayes
Naive Bayes merupakan algoritma yang berdasar pada teorema Bayes. Algoritma Naive Bayes ini digunakan untuk mengklasifikasi data dengan menggunakan metode probabilitas dan statistik dengan tujuan memprediksi peluang akan suatu hal. Setiap contoh training akan bertahap meningkatkan/menurunkan peluang dari kebenaran suatu hipotesis. Kelebihan dari Naive Bayesantara lain yaitu perhitungan yang efisien, dapat berlaku pada data kuantitatif maupun kualitatif, tidak perlu data training yang banyak, dan akan menggunakan kode yang sederhana jika diimplementasikan pada bahasa pemrograman. Sementara kekurangan dari Naive Bayes salah satunya ialah prediksi akan bernilai nol apabila probabilitas bernilai nol. Contoh penerapan metode Naive Bayes ialah menentukan pembelian komputer berdasarkan data set yang ada berupa umur, gaji, status sekolah, dan status pembelian komputer.
Tahapan dalam algoritma Naive Bayes ialah:
- Baca data training
- Hitung jumlah kelas
- Hitung jumlah kasus yang sama dengan kelas yang dimaksud
- Kalikan semua nilai hasil sesuai dengan data X yang dicari kelasnya.
c. Neural Networks