Berbagai macam kegiatan dilakukan masing-masing orang, mulai dari bertransaksi hingga menghibur diri, semuanya bisa dilakukan melalui aplikasi dan akses internet.
Hal tersebut meninggalkan jejak digital yang tersimpan melalu platform yang mempunyai kapasistas yang besar. Kebiasaan pengguna dapat diketahui melalu proses yang dinamakan data mining atau penggalian data. Tapi kali ini saya tidak akan membahas penjelasan mengenai pengertian data mining secara spesifik hanya saja saya akan menjelaskan mengenai salah satu proses yang terdapat dalam data mining yaitu KDD atau Knowledge discovery in databases.
Data mining adalah sebuah kegiatan untuk mengidentifikasi beragam jenis data. Dari banyaknya data yang tersimpan di database, data-data tersebut diidentifikasi baik dicari kemungkinan adanya pola ataupun lainnya yang dianggap berpotensi untuk menghasilkan sesuatu yang bisa dipakai oleh organisasi atau perusahaan yang memiliki database tersebut.
Data mining itu sendiri meiliki beragam metode yang bisa digunakan yaitu KDD, CRISP-DM, SEMMA, dll. Setiap proses memiliki metode yang berbeda-beda dalam pencarian informasi penting yang ada di dalam database orgnisasi. Pada artikel ini kita akan membahas KDD atau Knowledge Discovery in Database Process.
Knowledge Discovery in Database Process (KDD) adalah salah satu metode yang bisa digunakan dalam melakukan data mining. Fayyed et al. (1996) mendefinisikan KDD sebagai proses dari menggunakan metode data mining untuk mencari informasi-informasi yang berharga, pola yang ada di dalam data, yang melibatkan algoritma untuk mengidentifikasi pola pada data.Â
Dunham (2003) meringkas proses KDD dari berbagai step, yaitu: seleksi data, pra-proses data, transformasi data, data mining, dan yang terakhir interpretasi dan evaluasi. Berikut adalah ilustrasi serta penjelasan menegenai proses KDD secara detail:
- Data Cleansing, Proses dimana data diolah lalu dipilih data yang dianggap bisa dipakai.
- Data Integration, Proses menggabungkan data yang dianggap berulang akan digabungkan menjadi satu.
- Selection, Proses seleksi atau pemilihan data yang dianggap relevan terhadap analisis.
- Data Trasnformation, Proses transformasi data terpilih ke dalam bentuk mining procedure.
- Data Mining, Proses dimana dilakukan beragam teknik untuk mengekstrak pola-pola potensial menghasilkan data yang berguna.
- Pattern Evolution, Proses dimana pola-pola yang telah diidentifikasi berdasarkan measure yang diberikan.
- Knowledge Presentation, Proses paling akhir dari proses KDD, Data-data yang sudah diproses divisualisasikan agar lebih mudah dipahami oleh pengguna dan diharapkan bisa diambil Tindakan berdasarkan analisis.
Tahapan proses KDD
- Pembelajaran domain aplikasi
-Integrasi data
-Pembersihan dan preprocessing data
-Meruduksi dan memproyeksi data(temukan fitur yang berguna,reduksi dimensi/variabel)
-Memilih fungsi data mining (ringkasan,klasifikasi,regresi,asosiasi,clustering)
-Memilih algoritma data mining
-Data mining pencarian pola yang menarik
-Evaluasi hasil
-Interprestasi analisa hasil
-Penggunaan pengetahuan ditemukan
Metode data mining
Ada banyak metode yang terdapat pada data mining, namun terdapat metode yang sering digunakan secara umum untuk melakukan data mining. Adapun metodenya yaitu :
Association
Metode data mining yang satu ini biasa juga dikenal Market basket analysis. Mempunyai keterkaitan dengan pemasaran yang dimana bertujuan untuk mengidentifikasi produk yang sering dibeli atau biasa dikenal dengan Top Seller.
Asosiasi adalah sebuah teknik untuk mencari hubungan dari data dari beragam variable data. Dari beragam variable data bisa saja 2 atau lebih diantaranya memiliki hubunga positif yang artinya kedua variable data ini saling berkaitan sehingga data tersebut bisa digunakan dalam data mining.
Classification
Metode ini merupakan metode yang digunakan untuk menemukan definisi kesamaan karakter pada  suatu kelas. Metode ini bertujuan untuk memberikan kelas pada suatu objek yang tidak memiliki label
Regression
Metode ini lumayan mirip dengan metode klasifikasi, namun yang membedakannya metode ini merupakan  metode yang mencari pola nilai numerik. Nantinya hasil dari metode regression ini menjadi penentu  hasil yang dimana nilai dari inputannya adalah dasarnya.
Clustering
Metode ini memiliki nama lain yaitu segmentation. Tujuan dari metode ini untuk mengelompokkan  suatu class menjadi beberapa segmen berdasarkan atribut yang telah ditentukan. Nantinya  penentuan atribut tersebut harus sesuai dari beberapa class yang telah dimasukkan.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H