Data mining adalah proses menemukan pola dan pengulangan dalam kumpulan data yang besar dan merupakan bidang ilmu komputer. Teknik dan algoritma penambangan data sedang banyak digunakan dalam Kecerdasan Buatan dan Ilmu Data. Ada banyak algoritma tetapi mari kita bahas 10 teratas dalam daftar algoritma data mining.
1. Algoritma C4.5
C4.5 adalah salah satu algoritma data mining teratas dan dikembangkan oleh Ross Quinlan. C4.5 digunakan untuk menghasilkan classifier berupa decision tree dari sekumpulan data yang telah diklasifikasikan. Classifier di sini mengacu pada alat data mining yang mengambil data yang perlu kita klasifikasikan dan mencoba untuk memprediksi kelas data baru.
Setiap titik data akan memiliki atributnya sendiri. Decision tree yang dibuat dengan C4.5 mengandung pertanyaan tentang nilai atribut dan bergantung pada nilai tersebut, data baru akan diklasifikasikan. Dataset pelatihan diberi label dengan lasses yang menjadikan C4.5 sebagai algoritme pembelajaran terawasi. Decision tree selalu mudah untuk diinterpretasikan dan dijelaskan membuat C4.5 cepat dan populer dibandingkan dengan algoritma data mining lainnya.
2. Algoritma K-mean
Salah satu algoritma pengelompokan yang paling umum, k-means bekerja dengan membuat sejumlah k grup dari sekumpulan objek berdasarkan kesamaan antar objek. Ini Mungkin tidak menjamin bahwa pengelompokan tersebut akan persis sama, tetapi anggota grup akan lebih mirip dibandingkan dengan anggota non-grup. Sesuai implementasi standar, k-means adalah algoritma pembelajaran tanpa pengawasan karena mempelajari cluster sendiri tanpa informasi eksternal.
Metrik setiap item disimpulkan sebagai koordinat dalam ruang multidimensi. Setiap koordinat menyertakan nilai satu parameter. Seluruh rangkaian nilai parameter menandakan vektor item. Misalnya, Anda memiliki catatan pasien yang berisi berat badan, usia, denyut nadi, tekanan darah, kolesterol, dll. K-means dapat mengkategorikan pasien ini dengan menggunakan kombinasi parameter ini.
Bagian berikut menunjukkan cara kerja algoritma K-means dan mungkin berguna dalam proyek mini CSE Anda.
- K-means memilih centroid untuk setiap cluster, yaitu, titik yang ada dalam ruang multi-dimensi.
- Setiap pasien akan berada paling dekat dengan salah satu centroid ini; mereka membentuk kelompok di sekitar mereka.
- K-means menghitung ulang setiap pusat cluster tergantung pada anggotanya. Pusat ini berfungsi sebagai pusat cluster baru.
- Semua centroid mengubah posisinya sehingga pasien dapat diklasifikasikan ulang di sekitar setiap centroid (mirip dengan langkah 2).
- Langkah 1-4 akan diulang sampai semua centroid tetap di tempatnya dan pasien tidak mengubah keanggotaan cluster mereka. Keadaan yang sesuai dikenal sebagai konvergensi.
3. support vector machines
Dalam hal tugas, Support vector machine (SVM) bekerja mirip dengan algoritma C4.5 kecuali bahwa SVM tidak menggunakan pohon keputusan sama sekali. SVM mempelajari dataset dan mendefinisikan hyperplane untuk mengklasifikasikan data menjadi dua kelas. Hyperplane adalah persamaan untuk garis yang terlihat seperti "y = mx + b".Â
SVM melebih-lebihkan untuk memproyeksikan data Anda ke dimensi yang lebih tinggi. Setelah diproyeksikan, SVM mendefinisikan hyperplane terbaik untuk memisahkan data ke dalam dua kelas.
SVM adalah metode terawasi karena mempelajari kumpulan data dengan kelas yang ditentukan untuk setiap item. Salah satu contoh paling populer yang menguraikan metode Support Vector Machine adalah sekelompok bola biru dan merah di atas meja.Â
Anda dapat menempatkan tongkat biliar, memisahkan bola biru dari merah jika tidak tercampur. Dalam contoh ini, warna bola adalah kelas dan tongkat berfungsi sebagai fungsi linier yang membagi dua kelompok bola. Selanjutnya, algoritma SVM menghitung posisi garis yang memisahkannya.
Fungsi linier mungkin tidak berfungsi jika bola dengan warna berbeda digabungkan dalam situasi yang lebih kompleks. Dalam hal ini, algoritma SVM dapat memproyeksikan item ke dimensi yang lebih tinggi (yaitu hyperplane) untuk menentukan pengklasifikasi yang benar.
Ketika mempertimbangkan interpretasi data visual biasa, setiap item (titik) berisi dua parameter (x,y). Hyperplane yang mengklasifikasikan akan memiliki lebih banyak dimensi jika setiap titik memiliki lebih banyak koordinat. Anda dapat menggunakan konsep algoritme SVM ini saat mengerjakan proyek tahun terakhir Anda untuk ilmu komputer.
4. Algoritma Apriori
Algoritma Apriori bekerja dengan mempelajari aturan asosiasi. Aturan asosiasi adalah teknik data mining yang digunakan untuk mempelajari korelasi antar variabel dalam database. Setelah aturan asosiasi dipelajari, itu diterapkan ke database yang berisi sejumlah besar transaksi.Â
Algoritma Apriori digunakan untuk menemukan pola yang menarik dan hubungan timbal balik dan karenanya diperlakukan sebagai pendekatan pembelajaran tanpa pengawasan. Menurut saya algoritme ini sangat efisien, menghabiskan banyak memori, menggunakan banyak ruang disk, dan memakan banyak waktu.
Misalkan Anda memiliki database yang terdiri dari satu set semua produk yang dijual di pasar. Setiap baris dalam tabel sesuai dengan transaksi pelanggan. Anda dapat dengan mudah memeriksa barang apa saja yang dibeli setiap pelanggan. Algoritme Apriori menguraikan produk apa yang sering dibeli bersamaan. Selanjutnya, menggunakan informasi ini untuk meningkatkan pengaturan barang untuk meningkatkan penjualan.
Misalnya, sepasang barang adalah satu set dua item: keripik dan bir. Apriori menghitung parameter ini sebagai berikut:
Dukungan untuk setiap itemset: Ini menunjukkan berapa kali itemset ini ada dalam database.
Keyakinan untuk setiap item: Probabilitas bersyarat yang menunjukkan item lain apa yang akan dibeli pelanggan dari cakupan yang diberikan jika mereka membeli sesuatu.
Seluruh algoritma Apriori diringkas menjadi 3 langkah:
- Gabung: Menghitung frekuensi satu set item.
- Prune: Itemset yang memenuhi target support dan confidence melanjutkan ke iterasi berikutnya untuk dua set item.
- Ulangi: Dua langkah di atas diulang untuk setiap level set item hingga Anda mengurutkan ukuran cakupan yang diperlukan.
5. Algoritma Ekspektasi-Maximisasi
Ekspektasi-Maximization (EM) digunakan sebagai algoritma clustering, seperti algoritma k-means untuk penemuan pengetahuan. Algoritma EM bekerja dalam iterasi untuk mengoptimalkan peluang melihat data yang diamati. Selanjutnya, itu memperkirakan parameter model statistik dengan variabel yang tidak teramati, sehingga menghasilkan beberapa data yang diamati.Â
Algoritma Expectation-Maximization (EM) sekali lagi merupakan pembelajaran tanpa pengawasan karena kami menggunakannya tanpa memberikan informasi kelas berlabel apa pun.
Algoritma EM tidak diawasi karena tidak menyediakan data kelas berlabel. Ini mengembangkan model Matematika yang memprediksi bagaimana data yang baru dikumpulkan akan didistribusikan tergantung pada kumpulan data yang diberikan.Â
Misalnya, hasil tes universitas tertentu menunjukkan distribusi normal. Pembagian yang sesuai menguraikan kemungkinan memperoleh masing-masing hasil yang mungkin.
Dalam hal ini, parameter model meliputi varians dan mean. Kurva lonceng (distribusi normal) mendefinisikan seluruh distribusi. Memahami pola distribusi algoritme ini dapat membantu Anda dengan mudah memahami proyek mini CSE Anda.
Misalkan Anda memiliki sejumlah nilai ujian; Anda hanya tahu sebagian dari mereka. Anda tidak memiliki mean dan varians untuk setiap titik data. Tetapi Anda dapat memperkirakan hal yang sama menggunakan sampel data yang diketahui dan menentukan kemungkinannya. Ini menyiratkan probabilitas di mana kurva distribusi normal dengan varians yang diperkirakan dan nilai rata-rata akan secara akurat menggambarkan semua hasil tes yang tersedia.
Algoritma EM membantu dalam pengelompokan data dengan cara berikut:
Langkah-1: Algoritma mencoba untuk mengasumsikan parameter model tergantung pada data yang diberikan.
Langkah-2: Dalam langkah-E, ini menghitung probabilitas setiap titik data yang sesuai dengan cluster
Langkah-3: Pada langkah-M, ini memperbarui parameter model.
Langkah-4: Algoritma mengulangi Langkah 2 dan 3 hingga distribusi cluster dan parameter model menjadi sama.
6. Algoritma PageRank
PageRank umumnya digunakan oleh mesin pencari seperti Google. Ini adalah algoritma analisis tautan yang menentukan kepentingan relatif dari suatu objek yang terhubung dalam jaringan objek. Analisis tautan adalah jenis analisis jaringan yang mengeksplorasi asosiasi di antara objek. Pencarian Google menggunakan algoritma ini dengan memahami tautan balik antar halaman web.
Ini adalah salah satu metode yang digunakan Google untuk menentukan kepentingan relatif halaman web dan memberi peringkat lebih tinggi di mesin pencari google. Merek dagang PageRank adalah milik Google dan algoritma PageRank dipatenkan oleh Universitas Stanford. PageRank diperlakukan sebagai pendekatan pembelajaran tanpa pengawasan karena menentukan kepentingan relatif hanya dengan mempertimbangkan tautan dan tidak memerlukan masukan lain.
Beberapa situs web menautkan secara internal, dan semuanya memiliki bobot dalam jaringan. Sebuah situs web memperoleh lebih banyak suara jika lebih banyak halaman ditautkan ke sana. Oleh karena itu, banyak sumber menganggapnya penting dan relevan. Setiap peringkat halaman dibentuk tergantung pada kelas situs web yang ditautkan.
Google mengalokasikan PageRank dari '0' hingga '10'. Peringkat ini didasarkan pada relevansi halaman dan jumlah tautan keluar, masuk, dan internal. Anda dapat menggunakan algoritme tanpa pengawasan ini saat mengerjakan topik proyek mini terkait web untuk CSE tahun ke-3.
7. Algoritma Adaboost
AdaBoost adalah algoritma boosting yang digunakan untuk membangun classifier. Classifier adalah alat penambangan data yang mengambil data, memprediksi kelas data berdasarkan input. Algoritma boosting adalah algoritma pembelajaran ensemble yang menjalankan beberapa algoritma pembelajaran dan menggabungkannya.
Algoritma boosting mengambil sekelompok pelajar yang lemah dan menggabungkannya untuk membuat satu pelajar yang kuat. Pelajar yang lemah mengklasifikasikan data dengan akurasi yang kurang. Contoh terbaik dari algoritma yang lemah adalah algoritma decision stump yang pada dasarnya merupakan pohon keputusan satu langkah.Â
Adaboost adalah pembelajaran terawasi yang sempurna karena bekerja dalam iterasi dan di setiap iterasi, ia melatih pelajar yang lebih lemah dengan kumpulan data berlabel. Adaboost adalah algoritma yang sederhana dan cukup mudah untuk diterapkan.
Setelah pengguna menentukan jumlah ronde, setiap iterasi AdaBoost yang berurutan mendefinisikan ulang bobot untuk setiap pelajar terbaik. Ini menjadikan Adaboost cara yang sangat elegan untuk menyetel pengklasifikasi secara otomatis. Adaboost fleksibel, serbaguna, dan elegan karena dapat menggabungkan sebagian besar algoritma pembelajaran dan dapat mengambil berbagai macam data.
8. Algoritma kNN
kNN adalah algoritma lazy learning yang digunakan sebagai algoritma klasifikasi. Pembelajar yang malas tidak akan berbuat banyak selama proses pelatihan kecuali untuk menyimpan data pelatihan.Â
Pelajar malas mulai mengklasifikasikan hanya ketika data baru yang tidak berlabel diberikan sebagai input. C4.5, SVN dan Adaboost, di sisi lain, adalah pelajar yang bersemangat yang mulai membangun model klasifikasi selama pelatihan itu sendiri. Karena kNN diberikan dataset pelatihan berlabel, itu diperlakukan sebagai algoritma pembelajaran terawasi.
Algoritma kNN tidak mengembangkan model klasifikasi apapun. Ini melakukan dua langkah berikut ketika beberapa data yang tidak berlabel dimasukkan.
- Ini mencari k titik data berlabel yang paling dekat dengan yang dianalisis (yaitu k tetangga terdekat).
- Dengan bantuan kelas tetangga, kNN menentukan kelas apa yang harus ditetapkan ke titik data yang dianalisis.
Metode ini membutuhkan pengawasan dan belajar dari kumpulan data berlabel. Saat Anda mengerjakan proyek mini CSE, Anda akan menemukan algoritme kNN yang mudah diterapkan. Ini dapat memperoleh hasil yang relatif tepat.
9. Algoritma Naive Bayes
Naive Bayes bukanlah algoritma tunggal meskipun dapat dilihat bekerja secara efisien sebagai algoritma tunggal. Naive Bayes adalah sekelompok algoritma klasifikasi yang disatukan. Asumsi yang digunakan oleh keluarga algoritma adalah bahwa setiap fitur dari data yang diklasifikasikan independen dari semua fitur lain yang diberikan di dalam kelas.Â
Naive Bayes dilengkapi dengan dataset pelatihan berlabel untuk membangun tabel. Jadi diperlakukan sebagai algoritma pembelajaran yang diawasi.
Ini menggunakan asumsi bahwa setiap parameter data dalam kumpulan yang diklasifikasikan adalah independen. Ini mengukur probabilitas bahwa titik data adalah Kelas A jika mendukung fitur 1 dan 2. Ini disebut algoritma 'Naif' karena tidak ada kumpulan data dengan semua fitur independen. Pada dasarnya, itu hanyalah asumsi yang dipertimbangkan untuk perbandingan.
Algoritma ini digunakan dalam banyak topik proyek mini untuk CSE tahun ke-3 karena menentukan probabilitas fitur berdasarkan kelas.
10. Algoritma CART
CART adalah singkatan dari klasifikasi dan pohon regresi. Ini adalah algoritma pembelajaran pohon keputusan yang memberikan pohon regresi atau klasifikasi sebagai output. Dalam CART, simpul pohon keputusan akan memiliki tepat 2 cabang.Â
Sama seperti C4.5, CART juga merupakan pengklasifikasi. Model pohon regresi atau klasifikasi dibangun dengan menggunakan dataset pelatihan berlabel yang disediakan oleh pengguna. Oleh karena itu diperlakukan sebagai teknik pembelajaran yang diawasi.
Misalnya, output pohon regresi adalah nilai kontinu atau numerik, seperti harga barang tertentu atau durasi kunjungan turis ke hotel. Anda dapat menggunakan algoritme CART saat mengerjakan masalah klasifikasi atau regresi yang relevan di proyek tahun terakhir untuk ilmu komputer.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H