* mengapa clustering digunakan ? Untuk mempermudah pengelompokkan objek-objek data yang banyak, lebih dari dua variabel.
- K-means adalah metode clutering yang menggunakan centroid (pusat data) sebagai titik yang representatif terhadap data disekelilingnya. (harus mengetahui/menentukan jumlah kelompok)
- Kelebihan:
komputasi cenderung ringan dan dapat menangani dataset yang besar
mudah diimplementasikan dan dipahami
performanya bagus jika cluster yang terbentuk terlihat perbedaannya
Kekurangan:
perlu menentukan jumlah cluster sebelum menjalankannya
sensitif terhadap pilihan awal centroid pada cluster, dapat menghasilkan centroid yang berbeda setiap kali dijalankan
menggunakan asumsi bahwa cluster berbentuk bulat dan memiliki varians yang mirip
- Kelebihan:
- Hierarchical Clustering adalah metode yang  menciptakan struktur hierarki untuk membentuk cluster berdasarkan kriteria spesifik pada setiap tahap hierarkinya.