Data merupakan kumpulan fakta bisa berupa kata-kata, simbol, ataupun angka yang diperoleh melalui proses pencarian dan pengamatan berdasarkan sumber tertentu. Data masih bersifat mentah sehingga seseorang belum bisa mendapatkan suatu informasi utuh dari data tersebut.
Apa itu Data Mining?
Data Mining adalah proses pencarian pengetahuan dan informasi penting dari sejumlah data yang besar dengan menggunakan pendekatan statistika, matematika, sampai memanfaaatkan teknologi artificial intelligence.
Knowledge Discovery In Databases (KDD) adalah sebuah istilah dalam data mining untuk mencari informasi-informasi penting untuk menemukan pola dalam data menggunakan algoritma tertentu. Pola-pola yang telah terbentuk bisa dimanfaatkan untuk memprediksi kejadian dimasa mendatang yang dapat diketahui dari berbagai variabel-variabel pada data. Inilah salah satu pengaplikasian data mining yaitu predictive.
Knowledge Discovery in Database (KDD)
Knowledge Discovery in Database (KDD) merupakan proses penemuan pengetahuan dalam database. Secara lengkap KDD didefinisikan sebagai proses ekstraksi atau identifikasi pola, pengetahuan dan informasi potensial dari sekumpulan data yang besar. Pengetahuan dan informasi yang dihasilkan dari KDD bersifat sah, baru, mudah dimengerti, dan bermanfaat.
Dalam proses data mining terdapat beberapa teknik untuk menganalisis data. KDD sendiri terdapat beberapa tahapan proses antara lain adalah sebagai berikut :
1. Data Cleaning
Data cleaning adalah proses pembersihan data dari adanya noise atau duplikat data.
2. Preprocessing
Tahap preprocessing meliputi proses pembersihan (cleaning) dengan membuang duplikasi data, memeriksa data yang inkosisten, dan memperbaiki kesalahan pada data misalkan typo.