Seluruh algoritma Apriori diringkas menjadi 3 langkah:
- Gabung: Menghitung frekuensi satu set item.
- Prune: Itemset yang memenuhi target support dan confidence melanjutkan ke iterasi berikutnya untuk dua set item.
- Ulangi: Dua langkah di atas diulang untuk setiap level set item hingga Anda mengurutkan ukuran cakupan yang diperlukan.
5. Algoritma Ekspektasi-Maximisasi
Ekspektasi-Maximization (EM) digunakan sebagai algoritma clustering, seperti algoritma k-means untuk penemuan pengetahuan. Algoritma EM bekerja dalam iterasi untuk mengoptimalkan peluang melihat data yang diamati. Selanjutnya, itu memperkirakan parameter model statistik dengan variabel yang tidak teramati, sehingga menghasilkan beberapa data yang diamati.Â
Algoritma Expectation-Maximization (EM) sekali lagi merupakan pembelajaran tanpa pengawasan karena kami menggunakannya tanpa memberikan informasi kelas berlabel apa pun.
Algoritma EM tidak diawasi karena tidak menyediakan data kelas berlabel. Ini mengembangkan model Matematika yang memprediksi bagaimana data yang baru dikumpulkan akan didistribusikan tergantung pada kumpulan data yang diberikan.Â
Misalnya, hasil tes universitas tertentu menunjukkan distribusi normal. Pembagian yang sesuai menguraikan kemungkinan memperoleh masing-masing hasil yang mungkin.
Dalam hal ini, parameter model meliputi varians dan mean. Kurva lonceng (distribusi normal) mendefinisikan seluruh distribusi. Memahami pola distribusi algoritme ini dapat membantu Anda dengan mudah memahami proyek mini CSE Anda.
Misalkan Anda memiliki sejumlah nilai ujian; Anda hanya tahu sebagian dari mereka. Anda tidak memiliki mean dan varians untuk setiap titik data. Tetapi Anda dapat memperkirakan hal yang sama menggunakan sampel data yang diketahui dan menentukan kemungkinannya. Ini menyiratkan probabilitas di mana kurva distribusi normal dengan varians yang diperkirakan dan nilai rata-rata akan secara akurat menggambarkan semua hasil tes yang tersedia.
Algoritma EM membantu dalam pengelompokan data dengan cara berikut:
Langkah-1: Algoritma mencoba untuk mengasumsikan parameter model tergantung pada data yang diberikan.
Langkah-2: Dalam langkah-E, ini menghitung probabilitas setiap titik data yang sesuai dengan cluster