Data Mining adalah sebuah proses ekstrasi yang akan menghasilkan pola yang sebelumnya tidak diketahui dengan menggunakan data dengan jumlah yang sangat banyak.Â
Data Mining merupakan salah satu tahapan yang terdapat dalam proses Knowledge Discovery in Databases (KDD), dimana KDD sendiri merupakan sebuah proses untuk menemukan informasi atau pengetahuan yang bermanfaat dari data yang dimiliki.Â
1. Getting Know About Data
Sebelum memulai proses dalam data mining, kita harus mengetahui terlebih dahulu mengenai data yang akan diproses. Data Objek merupakan kumpulan dari beberapa data.Â
Data objek ini mewakili entitas, misalnya database sebuah universitas. Maka entitas dari database ini adalah mahasiswa, dosen, mata kuliah, dan lain-lain. Data objek ini dideskripsikan oleh atribut. Atribut merupakan ladang data yang mewakili fitur dan karakteristik dari data objek. Adapun tipe-tipe dari  atribut data yaitu:
- Nominal, merupakan jenis atribut yang memberikan informasi cukup untuk membedakan antara satu objek dengan objek lainnya. Contohnya yaitu nama orang, alamat, nomor KTP, dan lain-lain.Â
- Binary, merupakan jenis atribut yang memberikan nilai boolean yang akan memberikan satu kebenaran mutlak, misalnya seperti 0 atau 1, benar atau salah, dan ya atau tidak.
- Ordinary, yaitu jenis atribut yang memberikan informasi mengenai suatu tingkatan antara objek yang satu dengan objek yang lain. Misalnya tingkatan tinggi, sedang, dan rendahnya sebuah nilai.Â
- Numeric, merupakan jenis atribut yang memiliki nilai bilangan bulat atau bilangan riil. Misalnya umur seseorang.
2. Proses Knowledge Discovery (KDD)
Knowledge Discovery (KDD) memiliki beberapa tahapan, yaitu :
- Data Integration atau Integrasi data, merupakan suatu proses penggabungan beberapa data yang telah dimiliki. Kemudian data-data ini akan disimpan  ke dalam satu tempat yaitu data warehouse dengan tujuan agar lebih rapi dan terstruktur.
- Data Cleaning atau pembersihan data. Sesuai namanya, tahapan ini  merupakan proses pembersihan data dari 'ketidakwajaran'. Maksud dari 'ketidakwajaran' ini yaitu hal-hal yang dianggap aneh, cacat, atau salah dalam sebuah data. Misalnya terdapat duplikasi data dan data yang tidak konsisten. Dalam tahap ini, seluruh kesalahan yang terdapat dalam data akan dikonfirmasi lagi kebenarannya dan kelengkapannya. Apabila terdapat kesalahan, maka data akan diwajarkan. Kewajaran data sangat diperlukan agar data dapat diolah ke tahap selanjutnya.Â
- Data Selection atau pemilihan data, merupakan  proses penyeleksian data yang akan digunakan dan dianggap relevan terhadap analisis.
- Data Transformation atau transformasi data, merupakan proses transformasi yang dilakukan pada data yang telah dimiliki agar data tersebut sesuai untuk tahapan data mining yang selanjutnya akan dilakukan.Â
- Data Mining. Sesuai definisi data mining tadi yaitu proses ekstrasi yang akan menghasilkan pola yang sebelumnya tidak diketahui dengan menggunakan data dengan jumlah yang sangat banyak, pada proses ini akan digunakan teknik, metode dan algoritma yang bervariasi entah itu menggunakan metodeÂ
- Classification, Regretion, Clustering, Association, dan lain-lain.
Pattern Evaluation atau evaluasi pola, merupakan tahapan untuk memeriksa apakah informasi atau pola yang dihasilkan dari proses data mining tadi telah sesuai dengan fakta sebelumnya.Â- Knowledge Presentation atau presentasi pengetahuan, merupakan tahapan terakhir yang akan menampilkan hasil dari proses KDD itu sendiri.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H