Pada pembahasan sebelumnya sudah ditulis bahwa ada beberapa metode metode dalam data mining seperti klasifikasi, association dan clustering. Pada kesempatan kali ini saya akan membahas lebih jauh tentang metode klasifikasi mulai dari pengertian, algoritma, dan pengaplikasiannya dalam kehidupan sehari hari
Apa itu Klasifikasi dalam data mining ?
Klasifikasi adalah proses mengidentifikasi dan dan mengelompokkan objek atau ide ke dalam kategori yang telah ditentukan. Dalam manajemen data, klasifikasi memungkinkan pemisahan dan pemilahan data sesuai dengan persyaratan yang ditetapkan untuk berbagai tujuan bisnis atau pribadi.
Algoritma Klasifikasi
- Regresi Linear
Regresi linier didasarkan pada pembelajaran yang diawasi dan melakukan regresi. Ini memodelkan nilai prediksi menurut variabel independen. Terutama untuk mengetahui hubungan antara prediksi dan variabel. Ini memprediksi nilai variabel dependen menurut variabel independen tertentu. Secara khusus menemukan hubungan linier antara variabel independen dan variabel dependen. Ini sangat baik untuk data yang dapat Anda pisahkan secara linier dan sangat efisien. Selain itu variabel independen dan dependen terkait secara linier.
- Decision Tree
Decision tree adalah teknik klasifikasi yang paling populer dalam data mining. Ini adalah diagram alur yang mirip dengan struktur pohon. Di sini, setiap simpul internal mengacu pada pengujian pada suatu kondisi, dan setiap cabang mewakili hasil pengujian (apakah itu benar atau salah). Setiap simpul daun dalam pohon keputusan memiliki label kelas.kita dapat membagi data ke dalam kelas yang berbeda sesuai dengan pohon keputusan. Itu akan memprediksi kelas mana yang akan menjadi milik titik data baru sesuai dengan pohon keputusan yang dibuat. Batas prediksinya adalah garis vertikal dan horizontal.
-Naive Bayes
Algoritma Naive Bayes mengasumsikan bahwa setiap fitur independen satu sama lain dan bahwa semua fitur berkontribusi sama pada hasil.Asumsi lain yang diandalkan oleh algoritma ini adalah bahwa semua fitur memiliki kepentingan yang sama.naive bayes memiliki banyak diterapkan di dunia saat ini, seperti penyaringan spam dan pengklasifikasian dokumen. Naive Bayes hanya membutuhkan sejumlah kecil data training untuk estimasi parameter yang diperlukan. Selain itu, pengklasifikasi Naive Bayes secara signifikan lebih cepat daripada pengklasifikasi canggih lainnya. Namun, pengklasifikasi Naive Bayes terkenal buruk dalam estimasi karena mengasumsikan semua fitur sama pentingnya.
- Logistic Regression.