Mohon tunggu...
Mohamad Diki Alfin
Mohamad Diki Alfin Mohon Tunggu... Mahasiswa - Mahasiswa

lorem ipsum dolor amet

Selanjutnya

Tutup

Ruang Kelas

Mengenal Klasifikasi dengan Decision Tree: Panduan Dasar untuk Pemula

16 Oktober 2024   19:31 Diperbarui: 16 Oktober 2024   19:41 5
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Bagikan ide kreativitasmu dalam bentuk konten di Kompasiana | Sumber gambar: Freepik

Setelah membahas metode K-Nearest Neighbour (KNN) dalam klasifikasi di artikel sebelumnya, kali ini kita akan menyelami metode lain yang sangat populer dalam dunia machine learning yaitu Decision Tree. Metode ini tidak hanya sederhana, tapi juga sangat efektif utnuk berbagai masalah klasifikasi. Pada artikel ini, kita akan membahas secara mendalam bagaimana decision tree bekerja, konsep penting seperti entropy,gain, gini index, dan gain ratio, serta kelebihan dan kekurangan dari metode ini.

Apa itu Decision Tree?

secara sederhana, Decision Tree adalah metode yang digunakan untuk melakukan prediksi dengan memecah dataset menjadi serangkaian keputusan, hingga mencapai prediksi akhir. Metode ini menggunakan struktur pohon yang terdiri dari node (simpul) yang mewakili pertanyaan atau tes pada atribut dataset, dan cabangan yang mewakili hasil dari pernyataan tersebut.

Bayangkan pohon keputusan sebagai alat bantu visual. Jika kamu pernah bermain "20 Questions", di mana kamu menanyakan serangkaian pertanyaan untuk menebak suatu objek, maka kamu sudah mengenal konsep dasar dari decision tree. Setiap jawaban membimbingmu ke arah lebih spesifik sampai akhirnya kamu bisa menebak objek yang di maksud.

Bagaimana Decision Tree Bekerja?

Decision Tree bekerja dengan cara membagi dataset menjadi subset berdasarkan fitur (atau atribut) tertentu yang paling baik memisahkan data. Proses ini berulang hingga semua data terklasifikasi atau tidak ada fitur yang tersisa untuk membedakan data lebih lanjut.

Misalnya, kita ingin memprediksi apakah seseorang akan membeli tiket bioskop berdasarkan beberapa fitur: 

  • Usia: Muda,Dewasa,Tua
  • Penghasilan: Rendah,Sedang,Tinggi
  • Status Mahasiswa: Ya atau Tidak

Pohon keputusan akan membuat serangkaian pertanyaan seperti: Apakah penghasilan tinggi? Apakah usia di bawah 30 tahun? Pertanyaan-pertanyaan ini memecah data menjadi subset yang lebih kecil, hingga pohon mencapai kategori akhir, yaitu "Membeli" atau "Tidak Membeli".

Konsep Penting dalam Decision Tree: Entropy, Gain, Gini Index, dan Gain Ration

Untuk membangun decision tree, kita perlu memilih fitur mana yang akan menjadi dasar pembagian pertama. Inilah yang disebut dengan pembagian optimal, dan untuk menentukan fitur mana yang terbaik, kita menggunakan beberapa konsep penting, seperti entropy,gain,gini index, dan gain ratio.

1. Entropy

Entropy mengukur seberapa acak atau tidak teraturnya suatu dataset. Semakin tinggi entropy, semakin tidak teratur dataset tersebut. Dalam konteks decision tree, kita menggunakan entropy untuk menghitung "kemurnian" dari data yang sedang kita coba pisahkan. Jika semua data dalam satu subset berasal dari kelas yang sama, entropy akan menjadi 0 (sangat teratur). Jika kelasnya bercampur, entropy akan tinggi.

Contoh: jika kita memiliki dataset berisi 100 pelanggan dan 50 diantaranya membeli tiket bioskop sementara 50 lainnya tidak, maka entropy akan lebih tinggi dibandingkan jika 90 orang membeli dan hanya 10 orang yang tidak.

2. Information Gain (Gain)

Gain adalah pengurangan entropy yang terjadi setelah data dibagi berdasarkan fitur tertentu. Semakin besar pengurangan entropy, semakin tinggi information gain dari fitur tersebut. Dengan kata lain, gain membantu kita memilih fitur mana yang paling baik untuk memisahkan data pada langkah pertama pohon keputusan.

Rumus Gain: Gain = Entropy Awal - Entropy Setelah Pembagian

Fitur dengan gain tertinggi akan dipilih sebagai dasar pembagian pertama pada decision tree

3. Gini Index

Gini Index adalah alternatif dari enropy untuk mengukur impurity (ketidakmurnian) dari data. Nilai Gini berkisar dari 0 (murni) hingga 1 (campuran sepenuhnya). Semakin rendah nilai Gini, semakin baik fitur tersebut dalam memisahkan data.

Misalnya, jika fitur hanya berisi satu kelas (misal, semua pelanggan membeli tiket bioskop), Gini Indexnya akan mendekati 0

4. Gain Ratio

Gain Ratio adalah perbaikan dari gain, karena gain cenderung memilih fitur dengan banyak nilai (kategori) meskipun mungkin tidak terlalu pending. Gain Ratio memperhitungkan jumlah pembagian yang terjadi dan memberikan preferensi pada fitur yang tidak membagi data terlalu banyak, sehingga menghasilkan pemilihan fitur yang lebih adil.

Rumus Gain Ration : Gain Ratio = Gain/Split Information

Kelebihan Dan Kekurangan Decision Tree

Kelebihan: 

  • Mudah Dipahami: Karena decision tree berbasis visual, metode ini mudah dipahami oleh pemula. Modelnya sangat intuitif dan transparan
  • Tidak Membutuhkan Pranormalisasi: Tidak seperti metode lain (misalnya KNN), decision tree tidak memerlukan normalisasi atau scalling data
  • Fleksibilitas: Decision tree dapat digunakan untuk klasifikasi maupun regresi.
  • Dapat Menangani Data Kategori dan Numerik: Baik data kategori (seperti "Ya/Tidak") maupun data numerik bisa di proses dengan baik oleh decision tree

Kekurangan:

  • Overfitting: Jika pohon terlalu dalam, decision tree bisa menjadi terlalu rumit dan spesifik pada data latih, sehingga tidak bekerja dengan baik pada data baru
  • Sensitif Terhadap Data: Perubahan kecil pada data dapat mengubah struktur pohon secara drastis.
  • Inefisien pada Dataset Besar: Untuk dataset yang sangat besar dan kompleks, decision tree mungkin tidak seefisien metode lain, seperti random forest atau gradient boosting.

Kesimpulan

Decision Tree adalah alat yang sangat berguna dalam machinelearning untuk tugas klasifikasi. Degnan menggunakan konsep entropy, gain, Gini index, dan gain ratio, kita dapat memebangun model yang mampu memprediksi dengan akurat. Meskipun ada kelemahan seperti overfitting decision tree tetap menjadi metode yang populer, terutama karena kemudahannya dipahami dan diaplikasikan

Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H

HALAMAN :
  1. 1
  2. 2
  3. 3
Mohon tunggu...

Lihat Konten Ruang Kelas Selengkapnya
Lihat Ruang Kelas Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun