Pada artikel sebelumnya, kita telah membahas dan mengetahui apa itu data mining, baik konsep dasarnya maupun penerapannya dalam kehidupan sehari-hari. Kita juga telah membahas mengenai pengertian data, atribut data, dan juga Knowledge Discovery in Database (KDD) yang merupakan salah satu teknik untuk menggali informasi pada data.
Pada artikel kali ini, kita akan mulai membahas apa saja metode-metode yang sering digunakan dalam data mining. Namun khusus artikel sekarang kita hanya akan berfokus ke salah satu algoritma, yaitu classification method (metode klasifikasi).
Pada dasarnya metode data mining dibagi menjadi 3 bagian, yaitu klasifikasi, asosiasi, dan clustering. Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau kelas. Klasifikasi (Classification) adalah salah satu metode yang paling umum untuk digunakan dalam data mining. Classification merupakan suatu cara atau metode untuk mengelompokkan dan menentukan algoritma sebuah data ke dalam kriteria atau kelompok data sesuai dengan keterkaitannya atas data yang dimiliki.Â
Di dalam metode klasifikasi ada beberapa jenis algoritma yang umum digunakan, antara lain sebagai berikut:
1. Â Metode Decision Tree, yaitu sebuah metode klasifikasi dengan menggunakan algoritma dengan cara membuat sebuah keputusan dalam bentuk seperti struktur pohon yang terdiri dari apa yang menjadi kemungkinan sebuah hasilnya, konsekuensi ataupun resikonya dan lain sebagainya. Metode ini diantaranya seperti : C4.5, Credal C4, Credal DT, Adaptative Credal C4.5 , CART dan ID3.
2. Â Metode Naive Bayes, yaitu salah satu metode yang di gunakan untuk data - data dalam kualifikasi yang tinggi karena memiliki kemampuan untuk mengefesienkan waktu dalam penggunaannya dan lebih mudah digunakan karena dalam penggunaanya tidak menggunakan tehnik optimalisasi yang numerik.
3. Â Metode K-Nearest Neighbor ( kNN ), yaitu salah satu metode yang di gunakan untuk mengklasifikasi sebuah data dalam bentuk gambar atau picture melalui sebuah merek atau laber artinya metode ini mengklasifikasikan data sesuai dari objek baru data tersebut. K-Means berbeda dengan kNN. K-Means lebih sering digunakan untuk Clustering sedangkan kNN di gunakan untuk klasifikasi.
4. Â Linear Discriminant Analysis ( LDA ) , yaitu salah satu metode yang digunakan untuk mengklasifikasi data dengan cara mengelompokkan data kedalam beberapa kelompok dengan kata lain melakukan pengekestrakan karakteristik data dari tingkat yang tinggi ke tingkat yang lebih rendah dalam satu kesatuan.
5. Â Logistic Regression ( LogR ), yaitu salah satu metode yang digunakan untuk mengklasifikasi data dengan cara melakukan analisis data dalam konsep statistika artinya kita dapat mengetahui ataupun mempredisiksi terlebih dahulu mengenai hasil yang akan di dapatkan apabila terdapat beberapa kategori yang harus di klasifikan antara beberapa data agar dapat lebih akurat dan jelas sebagai cara agar terdapat pertimbangan sebelum mengambil keputusan.
Data-data yang digunakan menggunakan algoritma yang telah disebutkan diatas, perlu dievaluasi menggunakan metode evaluasi. Metode evaluasi data mining dalam hal Klasifikasi dibagi menjadi 2 cara yaitu, diantaranya sebagai berikut :
1. Â Confusion Matrix, yaitu cara evaluasi klasifikasi data mining dengan berfokus pada ketepatan data. Artinya, cara ini dilakukan dengan melakukan perbandingan data hasil klasifikasi dengan data yang telah ada sebelumnya untuk menentukan ketepatan data.
2. Â ROC Curve, yaitu cara evaluasi klasifikasi data mining yang berfokus pada performance atau penampilan data. Artinya, metode ini digunakan untuk menentukan apakah data yang di pilih ataupun digunakan sudah layak untuk digunakan melihat dari threshold sebuah model data. Selain itu, dalam ROC Curve ada yang dikenal dengan Area Under Curve ( AUC ), yaitu bagian dari ROC Curve yang terletak di bawahnya yang menjadi salah satu cara untuk membantu proses evaluasi klasifikasi data karena dia terletak di bawah kurva yang berfungsi sebagai pembanding antara model data yang satu dan model data lainnya.