Dewasa ini, kehidupan masyarakat berkaitan banyak dengan data baik itu menghasilkan data dengan rasio yang sangat besar ataupun menerima data dari pihak ketiga dengan perantara media sosial.
Banyaknya data yang dihasilkan menimbulkan fenomena "tsunami data" yang diartikan sebagai lonjakan pengetahuan digital. Data-data dalam fenomena ini sendiri terbagi menjadi data-data yang bermanfaat yang dapat menunjang perkembangan teknologi dan juga sebaliknya yaitu data yang tidak bermanfaat. Menurut John Naisbitt dalam bukunya yang berjudul Megatrends yang diterbitkan pada tahun 1988, beliau menyebutkan "We are drowning in data, but starving for knowledge!". Kutipan tersebut sangat menggambarkan kehidupan sekarang, dimana masyarakat "tenggelam" oleh data tetapi pengetahuan yang dihasilkan/didapatkan minim karena data yang diperoleh tidak di olah menjadi pengetahuan yang dapat di ambil. Seperti dalam tulisan saya sebelumnya, data dapat diolah menjadi informasi kemudian informasi yang diolah akan menghasilkan pengetahuan atau singkatnya data -> informasi -> pengetahuan dimana semakin tinggi tingkatan pengolahannya semakin tinggi pula valuenya. Data memiliki value yang lebih rendah jika dibandingkan dengan informasi dan informasi memiliki value yang lebih rendah jika dibandingkan dengan pengetahuan. Kenapa value yang dihasilkan oleh pengetahuan lebih tinggi? hal ini dikarenakan pola yang dihasilkan oleh data jadi pengetahuan dapat dimanfaatkan untuk estimasi, prediksi, dsb.
Proses ekstrak pengetahuan untuk menemukan pola dari suatu data yang besar disebut dengan data mining. Dalam proses data mining secara sederhana, himpunan data -> metode data mining -> pengetahuan.
Dalam data mining terdapat dua metode/gaya yang digunakan yaitu gaya statistik dan gaya heuristik. Statistik secara umum adalah sekelompok metode dan juga aturan tentang pengumpulan, analisis, pengolahan dan juga penafsiran data pada angka-angka yang akan mennjelaskan sebuah data tersebut atau hasil dari pengamatannya. Adapun gaya statistik yang dimaksud dalam data mining adalah pengembangan daya kritik dalam suatu kegiatan pengambilan keputusan dengan menggunakan cara-cara kuantitaif. Sedangkan untuk gaya heuristik sendiri adalah teknik yang dirancang untuk memecahkan masalah dengan mengabaikan apakah solusi yang dihasilkan dapat dibuktikan (secara matematis) benar.
Data mining sangat populer diterapkan sekarang untuk menngolah data-data dari suatu sektor kehidupan masyarakat yang tentunya dengan jumlah data yang sangat besar. Lantas apakah ada masalah yang timbul di data mining? jawabannya adalah ADA. Diantara banyaknya sisi positif dalam data mining, berikut merupakan masalah umum yang terdapat di data mining :
- Data yang diolah besar, karena hal ini maka algoritma data mining yang digunakan harus memiliki sifat scalable yang tinggi untuk memproses misalnya terabyte data.
- Atribut/dimension data yang banyak, contohnya seperti micro-array yang dapat memiliki 10 ribu dimensi atau atribut.
- Data yang beranekaragam/kompleks, karena sumber data katakanlah data sampel yang terlibat dalam suatu kasus untuk dilakukan data mining itu lebih dari satu misalnya terdapat data streams dan data sensor, atau terdapat data program software dan data scientific simulations.
- Penerapan data mining yang masih abu-abu karena tergolong bidang ilmu yang baru.
Peran Utama & Metode Data Mining