Lihat ke Halaman Asli

10 Algoritma Data Mining yang Harus Kamu Ketahui

Diperbarui: 20 Oktober 2022   04:54

Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.

Ilmu Alam dan Teknologi. Sumber ilustrasi: PEXELS/Anthony

Data mining adalah proses menemukan pola dan pengulangan dalam kumpulan data yang besar dan merupakan bidang ilmu komputer. Teknik dan algoritma penambangan data sedang banyak digunakan dalam Kecerdasan Buatan dan Ilmu Data. Ada banyak algoritma tetapi mari kita bahas 10 teratas dalam daftar algoritma data mining.

1. Algoritma C4.5

C4.5 adalah salah satu algoritma data mining teratas dan dikembangkan oleh Ross Quinlan. C4.5 digunakan untuk menghasilkan classifier berupa decision tree dari sekumpulan data yang telah diklasifikasikan. Classifier di sini mengacu pada alat data mining yang mengambil data yang perlu kita klasifikasikan dan mencoba untuk memprediksi kelas data baru.

Setiap titik data akan memiliki atributnya sendiri. Decision tree yang dibuat dengan C4.5 mengandung pertanyaan tentang nilai atribut dan bergantung pada nilai tersebut, data baru akan diklasifikasikan. Dataset pelatihan diberi label dengan lasses yang menjadikan C4.5 sebagai algoritme pembelajaran terawasi. Decision tree selalu mudah untuk diinterpretasikan dan dijelaskan membuat C4.5 cepat dan populer dibandingkan dengan algoritma data mining lainnya.

2. Algoritma K-mean

Salah satu algoritma pengelompokan yang paling umum, k-means bekerja dengan membuat sejumlah k grup dari sekumpulan objek berdasarkan kesamaan antar objek. Ini Mungkin tidak menjamin bahwa pengelompokan tersebut akan persis sama, tetapi anggota grup akan lebih mirip dibandingkan dengan anggota non-grup. Sesuai implementasi standar, k-means adalah algoritma pembelajaran tanpa pengawasan karena mempelajari cluster sendiri tanpa informasi eksternal.

Metrik setiap item disimpulkan sebagai koordinat dalam ruang multidimensi. Setiap koordinat menyertakan nilai satu parameter. Seluruh rangkaian nilai parameter menandakan vektor item. Misalnya, Anda memiliki catatan pasien yang berisi berat badan, usia, denyut nadi, tekanan darah, kolesterol, dll. K-means dapat mengkategorikan pasien ini dengan menggunakan kombinasi parameter ini.

Bagian berikut menunjukkan cara kerja algoritma K-means dan mungkin berguna dalam proyek mini CSE Anda.

  • K-means memilih centroid untuk setiap cluster, yaitu, titik yang ada dalam ruang multi-dimensi.
  • Setiap pasien akan berada paling dekat dengan salah satu centroid ini; mereka membentuk kelompok di sekitar mereka.
  • K-means menghitung ulang setiap pusat cluster tergantung pada anggotanya. Pusat ini berfungsi sebagai pusat cluster baru.
  • Semua centroid mengubah posisinya sehingga pasien dapat diklasifikasikan ulang di sekitar setiap centroid (mirip dengan langkah 2).
  • Langkah 1-4 akan diulang sampai semua centroid tetap di tempatnya dan pasien tidak mengubah keanggotaan cluster mereka. Keadaan yang sesuai dikenal sebagai konvergensi.

3. support vector machines

Dalam hal tugas, Support vector machine (SVM) bekerja mirip dengan algoritma C4.5 kecuali bahwa SVM tidak menggunakan pohon keputusan sama sekali. SVM mempelajari dataset dan mendefinisikan hyperplane untuk mengklasifikasikan data menjadi dua kelas. Hyperplane adalah persamaan untuk garis yang terlihat seperti "y = mx + b". 

SVM melebih-lebihkan untuk memproyeksikan data Anda ke dimensi yang lebih tinggi. Setelah diproyeksikan, SVM mendefinisikan hyperplane terbaik untuk memisahkan data ke dalam dua kelas.

Halaman Selanjutnya


BERI NILAI

Bagaimana reaksi Anda tentang artikel ini?

BERI KOMENTAR

Kirim

Konten Terkait


Video Pilihan

Terpopuler

Nilai Tertinggi

Feature Article

Terbaru

Headline