Setelah membahas metode K-Nearest Neighbour (KNN) dalam klasifikasi di artikel sebelumnya, kali ini kita akan menyelami metode lain yang sangat populer dalam dunia machine learning yaitu Decision Tree. Metode ini tidak hanya sederhana, tapi juga sangat efektif utnuk berbagai masalah klasifikasi. Pada artikel ini, kita akan membahas secara mendalam bagaimana decision tree bekerja, konsep penting seperti entropy,gain, gini index, dan gain ratio, serta kelebihan dan kekurangan dari metode ini.
Apa itu Decision Tree?
secara sederhana, Decision Tree adalah metode yang digunakan untuk melakukan prediksi dengan memecah dataset menjadi serangkaian keputusan, hingga mencapai prediksi akhir. Metode ini menggunakan struktur pohon yang terdiri dari node (simpul) yang mewakili pertanyaan atau tes pada atribut dataset, dan cabangan yang mewakili hasil dari pernyataan tersebut.
Bayangkan pohon keputusan sebagai alat bantu visual. Jika kamu pernah bermain "20 Questions", di mana kamu menanyakan serangkaian pertanyaan untuk menebak suatu objek, maka kamu sudah mengenal konsep dasar dari decision tree. Setiap jawaban membimbingmu ke arah lebih spesifik sampai akhirnya kamu bisa menebak objek yang di maksud.
Bagaimana Decision Tree Bekerja?
Decision Tree bekerja dengan cara membagi dataset menjadi subset berdasarkan fitur (atau atribut) tertentu yang paling baik memisahkan data. Proses ini berulang hingga semua data terklasifikasi atau tidak ada fitur yang tersisa untuk membedakan data lebih lanjut.
Misalnya, kita ingin memprediksi apakah seseorang akan membeli tiket bioskop berdasarkan beberapa fitur:Â
- Usia: Muda,Dewasa,Tua
- Penghasilan: Rendah,Sedang,Tinggi
- Status Mahasiswa: Ya atau Tidak
Pohon keputusan akan membuat serangkaian pertanyaan seperti: Apakah penghasilan tinggi? Apakah usia di bawah 30 tahun? Pertanyaan-pertanyaan ini memecah data menjadi subset yang lebih kecil, hingga pohon mencapai kategori akhir, yaitu "Membeli" atau "Tidak Membeli".
Konsep Penting dalam Decision Tree: Entropy, Gain, Gini Index, dan Gain Ration
Untuk membangun decision tree, kita perlu memilih fitur mana yang akan menjadi dasar pembagian pertama. Inilah yang disebut dengan pembagian optimal, dan untuk menentukan fitur mana yang terbaik, kita menggunakan beberapa konsep penting, seperti entropy,gain,gini index, dan gain ratio.
1. Entropy