Selamat datang kembali teman-teman, pada artikel kali ini akan membahas mengenai salah satu teknik dalam data mining yaitu clusteringData merupakan mentahan dari informasi yang harus diolah terlebih dahulu atau juga merupakan fakta yang belum punya makna. Data ini di produksi oleh manusia dengan jumlah yang sangat besar dan dengan ukuran atau jenis yang besar pula dalam satu harinya. Data ini berasal dari berbagai bidang, misalnya kedokteran(data kesehatan,tinggi badan,kadar gula dan lainnya), bisnis, ekonomi dan masih banyak lagi. Salah satu yang paling besar menjadi tempat produksi data oleh manusia yaitu sosial media seperti Facebook, Instagram, Path, Telegram dan lainnya. Data-data yang terus diproduksi dengan jumlah yang besar akan mengakibatkan tsunami data. Tsunami data atau banjir data dapat terjadi apabila data yang diproduksi berjumlah sangat banyak tetapi tidak membawa atau memberikan informasi atau pengetahuan bagi manusia untuk memanfaatkannya.
Oleh karena itu, disinilah kegunaan data mining. Data-data yang berjumlah banyak tersebut dapat diolah menjadi informasi. Ada beberapa teknik yang paling sering digunakan dalam data mining yaitu Classification, Clustering dan Association. Pada artikel ini, saya akan membahas tentang salah satu teknik tersebut yaitu Clustering. Clustering pengelompokan tanpa label di awal adalah metode yang mengelompokan data dengan membagi sekumpulan objek data menjadi beberapa kelas yang disebut cluster. Teknik ini tidak sama dengan klasifikasi, dimana mengelompokkan berdasarkan satu label yang sudah ada sejak awal dari kumpulan data tersebut. Clustering mengelompokkan kumpulan data tersebut berdasarkan kesamaan karakteristik antar data, yang nantinya kesamaan karakteristik ini merupakan label atau kelas dari kumpulan data tersebut.
Adapun algoritma yang paling sering dijumpai atau digunakan dalam teknik Clustering yaitu K-Means. Algoritma K-Means merupakan salah satu dari algoritma clustering yang mengkelaskan suatu data berdasarkan ciri-cirinya dengan memanfaatkan centroid data dengan proses yang berulang sampai mendapatkan hasil yang sama. Hal tersebut dikarenakan algoritma ini memaksimalkan kesamaan karakter dalam kelas dan memaksimalkan perbedaan antar kelas. Untuk tahapan algoritma K-Means yakni sebagai berikut :
1. Pilih jumlah kluster/k yang diinginkan
2. Berikan inisial k/pusat kluster (centroid) secara random
3. Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek ditentukan berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah Euclidean distance (d)
x = x1, x2, . . . , xN, dan y = y1, y2, . . . , yN merupakan banyaknya N atribut(kolom) antara 2 record
4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster adalah rata-rata (mean) dari semua data atau objek dalam klaster tertentu
5. Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak berubah lagi (stabil) atau tidak ada penurunan yang signifikan dari nilai SSE (Sum of Squared Errors)
Langkah di atas merupakan perhitungan manual dan akan terjadi berulang-ulang sampai pusat kluster tetap. Di sisi lain, ada juga yang menggunakan bantuan aplikasi RapidMiner/Orange yang tentunya efektif dan efisien dalam mendapatkan hasil Clustering hanya dengan memasukkan kumpulan data dan menentukan jumlah klusternya.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H