Data mining adalah metode dalam ilmu komputer yang biasa digunakan dalam proses pencarian knowledge. Tahapan di dalamnya berguna untuk mencari pola-pola tertentu menurut data yang ada pada database. Biasanya, metode ini banyak ditemukan pada bidang machine learning & statistika.
Metode data mining adalah cara yang diterapkan namun perlu disesuaikan dengan tujuan penggunanya. Ada tiga pembagian metode data mining yang akan kita pelajari pada perkuliahan saat itu yaitu :
Klasifikasi data mining adalah sebuah proses menemukan definisi kesamaan karakteristik dalam suatu kelompok atau kelas (class). Metode ini dilakukan bertujuan untuk memperkirakan kelas berdasarkan suatu objek yang labelnya belum diketahui.
Dalam data mining juga terdapat pengelompokan yaitu clustering, Nah apakah yang membedakan klasifikasi dengan clustering itu?Jadi klasifikasi adalah pemprosesan untuk menemukan sebuah model atau fungsi yang menjelaskan dan mencirikan konsep atau kelas data, untuk kepentingan tertentu. sedangkan clustering digunakan untuk pengelompokkan data berdasarkan kemiripan pada objek data dan sebaliknya meminimalkan kemiripan terhadap kluster yang lain. Atau lebih mudahnya membedakan klasifikasi dengan clustering yaitu di lihat dari ciri khas keduanya dimana klasifikasi memiliki label prediction sedangkan clustering tidak memiliki label prediction.
Metode data mining yang ketiga adalah association. Metode ini bertujuan untuk mengidentifikasi produk yang sering dibeli bersamaan oleh pelanggan. Bagaimana contohnya? Misalnya beberapa pelanggan akan membeli popok bayi dan minuman kemasan bersamaan. Dengan begitu perusahaan lebih mudah mengetahui kalau kedua barang tersebut sering dibeli bersamaan.
Nah itu tadi penjelasan mengenai metode (pengelompokan) data mining, selanjutnya kita simak penjelasan menenai proses atau tahapan pada data mining. Pada perkuliahan saat itu terdapat tujuh tahapan yang dipelajari yaitu :
Tahapan data mining pertama adalah database. Dimana pada tahapan ini akan dilakukan pengumpulan data-data yang ada dan kemudian dilakukan langkah-langkah selanjutnya.
Langkah kedua dalam tahapan data mining adalah integrasi data. Setelah melakukan pengumpulan data-data pada tahap database maka pada tahapan integrasi data maka data yang ada akan digabungan atau di kelompokan berdasarkan data yang selaras. Output pada tahapan ini adalah data-data yang serasi atau selaras.
Langkah ketiga dalam tahapan data mining adalah data cleaning. Setelah terjadi tahapan integrasi data atau pengelompokan data yang selaras maka tahap selanjutnya sebelum data diproses dan dibentuk menjadi sebuah knowledge, data yang ada harus dibersihkan terlebih dahulu. Jika ada yang eror, maka data-data tersebut harus dibuang. Sehingga tersisa data yang 'bagus' untuk diolah dalam tahap selanjutnya.
Sebelum kita melanjut ketahapan selanjutnya perlu kita ketahui bahwa dari ketiga tahapan di atas tadi yaitu database, data integration dan data cleaning akan menghasilkan output data warehouse.
Langkah keempat dalam tahapan data mining adalah transformation. Dalam tahap transformation ini data yang telah di seleksi pada data cleaning tadi akan dipilih dan diubah formatnya agar sesuai dengan teknik atau metode yang dipakai. Pada tahap ini pula kualitas data mining akan terlihat.