Oleh karena itu, disinilah kegunaan data mining. Data-data yang berjumlah banyak tersebut dapat diolah menjadi informasi. Ada beberapa teknik yang paling sering digunakan dalam data mining yaitu Classification, Clustering dan Association. Pada artikel ini, saya akan membahas tentang salah satu teknik tersebut yaitu Clustering. Clustering  pengelompokan tanpa label di awal adalah metode yang mengelompokan data dengan membagi sekumpulan objek data menjadi beberapa kelas yang disebut cluster. Teknik ini tidak sama dengan klasifikasi, dimana mengelompokkan berdasarkan satu label yang sudah ada sejak awal dari kumpulan data tersebut. Clustering mengelompokkan kumpulan data tersebut berdasarkan kesamaan karakteristik antar data, yang nantinya kesamaan karakteristik ini merupakan label atau kelas dari kumpulan data tersebut.
Adapun algoritma yang paling sering dijumpai atau digunakan dalam teknik Clustering yaitu K-Means. Algoritma K-Means merupakan salah satu dari algoritma clustering yang mengkelaskan suatu data berdasarkan ciri-cirinya dengan memanfaatkan centroid data dengan proses yang berulang sampai mendapatkan hasil yang sama. Hal tersebut dikarenakan algoritma ini memaksimalkan kesamaan karakter dalam kelas dan memaksimalkan perbedaan antar kelas. Untuk tahapan algoritma K-Means yakni sebagai berikut :
1. Pilih jumlah kluster/k yang diinginkan
2. Berikan inisial k/pusat kluster (centroid) secara random
3. Tempatkan setiap data atau objek ke klaster terdekat. Kedekatan dua objek ditentukan berdasar jarak. Jarak yang dipakai pada algoritma k-Means adalah Euclidean distance (d)
x = x1, x2, . . . , xN, dan y = y1, y2, . . . , yN merupakan banyaknya N atribut(kolom) antara 2 record
4. Hitung kembali pusat klaster dengan keanggotaan klaster yang sekarang. Pusat klaster adalah rata-rata (mean) dari semua data atau objek dalam klaster tertentu
5. Tugaskan lagi setiap objek dengan memakai pusat klaster yang baru. Jika pusat klaster sudah tidak berubah lagi, maka proses pengklasteran selesai. Atau, kembali lagi ke langkah nomor 3 sampai pusat klaster tidak berubah lagi (stabil) atau tidak ada penurunan yang signifikan dari nilai SSE (Sum of Squared Errors)