Metode pengolahan dan evaluasi data pada datamining
Assalamualaikum warahmatullahi wabarakatuh
pada artikel ini masih membahas tentang Data mining yang pada artikel sebelumnya membahas Knowledge Discovery in Database atau KDD. Kali ini saya akan membahas tentang klasifikasi atau pengelompokan suatu objek yang telah kita amati.
Sebelum kita lanjut ke tahapan klasifikasi maka kita perlu ketahui ada beberapa tahapan pada pengolahan data mining ini sendiri yaitu :
- Pembersihan data (untuk membuang data yang tidak konsisten dan noise)
- Integrasi data (penggabungan data dari beberapa sumber)
- Transformasi data (data diubah menjadi bentuk yang sesuai untuk di-mining)
Aplikasi teknik Data Mining, proses ekstraksi pola dari data yang ada
Evaluasi pola yang ditemukan (proses interprestasi pola menjadi pengetahuan yang dapat digunakan untuk mendukung pengambilan keputusan)
- Presentasi pengetahuan (dengan teknik visualisasi)
Saat ini kita ada pada proses yang 4. Nah setelah kita mengetahui data yang kita gunakan selanjutnya kita akan melakukan pengolahan pada data tersebut. Dalam proses data mining ini sendiiri ada beberapa algoritma/metode yang digunakan untuk mengolah data yang telah dapatkan dari penelitian kita yaitu :
Metode Decision Tree Metode pohon keputusan adalah metode klasifikasi yang menggunakan algoritma untuk menentukan kemungkinan hasil, hasil, risiko, dll dalam struktur pohon. Contoh metodenya yaitu:C4.5 dan Credal C4 dsb.
Metode NB (Naive Bayes) merupakan salah satu metode yang digunakan untuk data yang berkualitas tinggi karena dapat mengefisienkan waktu penggunaan dan mudah digunakan karena tidak menggunakan teknik optimasi numerik.
Metode K-NN (K-Nearest Neighbor) yang merupakan salah satu metode pengklasifikasian data berupa citra atau citra dengan tanda atau label, artinya metode ini mengklasifikasikan data menurut item data yang baru. K-Means berbeda dengan kNN. K-Means lebih umum digunakan untuk clustering, sedangkan kNN digunakan untuk klasifikasi
Metode LDA (Linear Discriminant Analysis) adalah suatu metode pengelompokan dan pengklasifikasian data ke dalam kelompok-kelompok, yaitu mengekstraksi ciri-ciri data dari level teratas ke level terbawah dalam suatu unit.
LR (Regresi Logistik) yang merupakan salah satu metode yang digunakan untuk mengklasifikasikan data dengan menganalisis data secara statistik, artinya kita dapat mengetahui terlebih dahulu atau memprediksi hasil apa yang akan diperoleh ketika ada beberapa kelas yang harus diklasifikasikan di antara beberapa kelas. . data agar lebih akurat dan berpikir jernih sebelum mengambil keputusan.
Metode diatas adalah bentuk proses ataupun pengolahan data mining sebagaimana mestinya. Setelah kita klasifikasi maka kita perlu evaluasi untuk memperoleh akurasi data yang maksimal dan juga untuk menguji hipotesis awal penelitian.