Setelah kita membahas mengenai variable dependen, variable independen, dan regresi di artikel sebelumnya, kini saat nya kita masuk ke topik klasifikasi. Jika regresi digunakan untuk memprediksi nilai numerik, klasifikasi adalah teknik yang digunakan untuk memprediksi kategori atau kelompok dari sebuah data.
Dalam artikel ini, kita akan memahami konsep dasar klasifikasi, macam-macam teknik klasifikasi, serta menjelajahi salah satu metode populer, yaitu K-Nearest Neighbour (KNN). Artikel ini dirancang untuk kamu yang baru saja mulai mempelajari machine learning, jadi mari kita mulai!
1. Apa Itu Klasifikasi?
Klasifikasi adalah salah satu tugas paling umum dalam supervised learning di machine learning. Jika regresi di gunakan untuk memprediksi nilai, klasifikasi bertujuan untuk memprediksi label atau kategori dari suatu data.
Misalnya, jika kamu memiliki data gambar binatang, klasifikasi digunakan untuk menentukan apakah gambar tersebut adalah anjing atau kucing. Klasifikasi berfokus pada memisahkan data ke dalam beberapa kelas yang berbeda.
2. Variable Dependen dan Independen dalam KlasifikasiÂ
sama seperti pada regresi, klasifikasi juga memiliki variable dependen dan variable independen.
- Variable Dependen dalam klasifikasi adalah kategori yang ingin kita prediksi (misalnya, apkah email itu spam atau bukan spam)
- Variable Independen adalah fitur atau informasi yang kita gunakan untuk membuat prediksi tersebut (misalnya, jumlah kata dalam email, apakah ada lampiran, dsb.).
3. Macam-Macam Teknik Klasifikasi
Terdapat berbagai macam teknik klasifikasi yang digunakan dalam machine learning, berikut beberapa yang paling umum:
- Decision Tree:Â Teknik ini menggunakan model berbentuk pohon untuk memecah dataset menjadi sub-kelompok berdasarkan fitur tertentu. Setiap percabangan mewakili keputusan, dan hasil akhirnya adalah prediksi kelas.
- Logistic Regression:Â Meskipun namanya mirip regresi, teknik ini sebenarnya digunakan untuk klasifikasi. Logistic regression digunakan untuk memprediksi probabilitas suatu data termasuk dalam satu kategori tertentu.
- Support Verctor Machine (SVM):Â SVM adalah teknik yang mencari garis atau bidang terbaik yang dapat memisahkan data ke dalam dua kategori berbeda. Teknik ini bekerja sangat baik untuk dataset dengan dimensi yang tinggi.
- Random Forest:Â Ini adalah kumpulan dari banyak decision tree. Setiap pohon dalam random forest memberikan "suara" untuk memprediksi kelas, dan hasil akhir adalah keputusan mayoritas dari semua pohon.
- K-Nearest Neighbour:Â Salah satu metode klasifikasi paling sederhana, yang akan kita bahas lebih lanjut di bawah
4. Mengenal K-Nearest Neigbour (KNN)
K-Nearest Neighbour (KNN) adalah teknik klasifikasi yang sangat intuitif. Ini adalah salah satu algoritma paling sederhana yang sering digunakan sebagai langkah awal dalam memahami machine learning. Mari kita lihat bagaimana KNN bekerja: