Sebelumnya kita telah mengenal mengenai data mining. Secara umum data mining adalah adalah proses pengumpulan dan pengolahan data dalam jumlah besar, hingga nantinya diperoleh hasil akhir berupa tinjauan dalam pengambilan keputusan. Dari definisinya dapat diliat bahwa hal utama dalam data mining adalah data. Jadi, selanjutnya kita akan membahas bagaimana data dalam data mining di proses.
Singkatnya proses data mining adalah dengan mengelompokkan semua data-data yang ada, bisa dengan cara klasifikasi, clustering, ataupun asosiasi. Pengelompokkan data-data ini dilakukan dengan mencari keterkaitan antara data satu dengan data lainnya.
Jadi, bagaimana sebenarnya proses dalam data mining dari dasar sampai menjadi pengetahuan (knowledge)? Berikut penjelasannya.
Proses Data Mining/Knowledge Discovery (KDD)
Data mining atau yang juga disebut dengan Knowledge Discovery (KDD) memiliki beberapa tahapan dalam prosesnya. Adapun tahapan-tahapan dalam proses KDD tersebut adalah sebagai berikut.
- Database. Dasar dalam data mining adalah memiliki database sebagai sumber data atau tempat semua data kita tersimpan.
- Data Integration. Setelah memiliki database, selanjutnya data-data yang ada di dalamnya akan mengalami proses penggabungan atau penyatuan dua atau lebih data dengan menyamakan semua formatnya. Hasil integrasi data ini akan disimpan di dalam gudang data (Data Warehouse).
- Data Cleaning. Setelah melakukan integrasi data, selanjutnya dilakukan lagi tahap data cleaning atau pembersihan data. Jadi, data-data yang ada akan mengalami pembersihan terhadap data yang tidak diperlukan atau mungkin bernilai null. Dalam tahap ini bukan berarti langsung melakukan pembersihan dengan menghapus beberapa data, tapi tepatnya akan dilakukan pengecekan terhadap semua data yang ada. Dalam tahap ini juga akan terjadi data transformation, yaitu melakukan pengubahan-pengubahan data agar sesuai dengan hasil data mining yang diinginkan.
- Data Selection. Setelah melalui tahap data cleaning termasuk data transformation, selanjutnya data akan diseleksi dengan memilih atribut apa yang diinginkan. Jadi, pada tahap ini akan dilakukan penyeleksian data-data yang relevan dengan apa yang diinginkan (Task-relevant Data).
- Data Mining. Selanjutnya masuklah dalam tahap data mining, yaitu tahapan menentukan algoritma apa yang cocok digunakan. Beberapa algoritma yang bisa digunakan adalah klasifikasi, clustering, dan asoisasi.
- Pattern Evaluation. Pada tahapan ini, akan dilakukan evaluasi pola sehingga bisa diketahui berapa persen data yang diperoleh dapat dipercaya.
- Knowledge. Masukklah dalap tahapan terakhir, yaitu diperoleh pengetahuan/knowledge. Apabila masih ada kesalahan/kekeliruan (error) pada tahap menuju knowledge ini, maka akan dilakukan perulangan proses pada tahap yang menyebabkan error.
Pada tahapan-tahapan dalam proses data mining, sempat disebut mengenai atribut. Jadi, dalam data pada data mining ada yang namanya data objects dan attributes. Di mana data objects adalah baris pada database dan attributes adalah kolom pada database. Untuk lebih jelasnya berikut penjelasan mengenai data pada data mining.
Data pada Data Mining
Kumpulan data terdiri dari objek data (data objects). Objek data dijelaskan atau dideskripsikan oleh atribut (attributes).
Atribut memiliki berbagai tipe, yaitu:
1. Â Nominal : Kategori atau state, misal kategori warna rambut (hitam,coklat,putih)
2. Binary   : Nilai yang hanya menyatakan 2 state, yaitu 0 dan 1.