Dewasa ini, kehidupan masyarakat berkaitan banyak dengan data baik itu menghasilkan data dengan rasio yang sangat besar ataupun menerima data dari pihak ketiga dengan perantara media sosial.Â
Banyaknya data yang dihasilkan menimbulkan fenomena "tsunami data" yang diartikan sebagai lonjakan pengetahuan digital. Data-data dalam fenomena ini sendiri terbagi menjadi data-data yang bermanfaat yang dapat menunjang perkembangan teknologi dan juga sebaliknya yaitu data yang tidak bermanfaat. Menurut John Naisbitt dalam bukunya yang berjudul Megatrends yang diterbitkan pada tahun 1988, beliau menyebutkan "We are drowning in data, but starving for knowledge!". Kutipan tersebut sangat menggambarkan kehidupan sekarang, dimana masyarakat "tenggelam" oleh data tetapi pengetahuan yang dihasilkan/didapatkan minim karena data yang diperoleh tidak di olah menjadi pengetahuan yang dapat di ambil. Seperti dalam tulisan saya sebelumnya, data dapat diolah menjadi informasi kemudian informasi yang diolah akan menghasilkan pengetahuan atau singkatnya  data -> informasi -> pengetahuan dimana semakin tinggi tingkatan pengolahannya semakin tinggi pula valuenya. Data memiliki value yang lebih rendah jika dibandingkan dengan informasi dan informasi memiliki value yang lebih rendah jika dibandingkan dengan pengetahuan. Kenapa value yang dihasilkan oleh pengetahuan lebih tinggi? hal ini dikarenakan pola yang dihasilkan oleh data jadi pengetahuan dapat dimanfaatkan untuk estimasi, prediksi, dsb.Â
Proses ekstrak pengetahuan untuk menemukan pola dari suatu data yang besar disebut dengan data mining. Dalam proses data mining secara sederhana, himpunan data -> metode data mining -> pengetahuan.
Dalam data mining terdapat dua metode/gaya yang digunakan yaitu gaya statistik dan gaya heuristik. Statistik secara umum adalah sekelompok metode dan juga aturan tentang pengumpulan, analisis, pengolahan dan juga penafsiran data pada angka-angka yang akan mennjelaskan sebuah data tersebut atau hasil dari pengamatannya. Adapun gaya statistik yang dimaksud dalam data mining adalah pengembangan daya kritik dalam suatu kegiatan pengambilan keputusan dengan menggunakan cara-cara kuantitaif. Sedangkan untuk gaya heuristik sendiri adalah teknik yang dirancang untuk memecahkan masalah dengan mengabaikan apakah solusi yang dihasilkan dapat dibuktikan (secara matematis) benar.
Data mining sangat populer diterapkan sekarang untuk menngolah data-data dari suatu sektor kehidupan masyarakat yang tentunya dengan jumlah data yang sangat besar. Lantas apakah ada masalah yang timbul di data mining? jawabannya adalah ADA. Diantara banyaknya sisi positif dalam data mining, berikut merupakan masalah umum yang terdapat di data mining :
- Data yang diolah besar, karena hal ini maka algoritma data mining yang digunakan harus memiliki sifat scalable yang tinggi untuk memproses misalnya terabyte data.
- Atribut/dimension data yang banyak, contohnya seperti micro-array yang dapat memiliki 10 ribu dimensi atau atribut.
- Data yang beranekaragam/kompleks, karena sumber data katakanlah data sampel yang terlibat dalam suatu kasus untuk dilakukan data mining itu lebih dari satu misalnya terdapat data streams dan data sensor, atau terdapat data program software dan data scientific simulations.
- Penerapan data mining yang masih abu-abu karena tergolong bidang ilmu yang baru.
Peran Utama & Metode Data Mining
Data mining pasti berhubungan dengan data set atau himpunan data seperti yang sudah saya jelaskan dalam tulisan saya sebelumnya "Mengenal Komponen dalam Proses Data Mining". Dalam dunia data mining, himpunan data biasanya dikategorikan menjadi dua itu data numerik (data yang dapat dilakukan operasi pertambahan, pengurangan, perkalian serta pembagian) dan data nominal (data yang tidak dapat dilakukan operasi pertambahan, pengurangan, perkalian serta pembagian). Pengkategorian data ini sangat penting untuk dilakukan karena dari proses kita dapat menentukan apakah sebuah himpunan dapat di proses dengan data mining roles tertentu, apakah suatu himpunan data dapat diproses dengan metode estimasi atau tidak. Untuk lebih jelasnya akan diuraikan sebagai berikut.
1. Estimasi
Estimasi merupakan metode dalam data mining yang dapat digunakan untuk memperkirakan nilai populasi dengan memakai nilai sampel. Estimasi hanya dapat bekerja apabila data set yang dijadikan sampel memiliki variable target yang bersifat numerik (bilangan/kontinu). Estimasi nilai dari variable target, ditentukan berdasarkan nilai dari variable predictor (atribut). Algoritma dalam metode estimasi adalah :
- Linear Regression
- Neural Network
- Support Vector Machine
2. Forecasting
Forecasting atau biasa disebut dengan prediksi merupakan metode yang digunakan untuk melakukan perkiraan/prediksi suatu nilai yang akan dicapai dalam suatu periode waktu. Forecasting hampir sama dengan estimasi, yang membedakannya adalah dalam forecasting data yang digunakan merupakan data rentet waktu (data time series). Algoritma dalam metode forecasting salah satunya adalah Statistical And Logistic Regression
3. Klasifikasi
Klasifikasi adalah metode data mining yang menggunakan data dengan target berupa nilai kategori. Adapun algoritma dalam metode klasifikasi yang paling sering digunakan adalah :
- Naive Bayes
- K-Nearest Neighbour
- C4.5
- ID3 (Iterative Dichotomiser 3)
- CART (Classification And Regression Tree)
- Linear Discriminant Analysis
- Decission Tree
4. Klastering
Klastering merupakan pengelompokkan data hasil observasi/penelitian yang tujuannya untuk memetakan data pada kelompok atau cluster tertentu berdasarkan tingkat kemiripannya dengan data lain. Salah satu algoritma metode klastering yang paling umum digunakan adalah k-Means.
5. Asosiasi
Asosiasi merupakan metode yang menemukan suatu kombinasi atau aturan asosiasi antara kombinasi item yang muncul bersamaan. Algoritma dalam metode asosiasi yang paling sering digunakan adalah :
- Apriori
- FP-growth
Referensi Â
Pengguna Sosial Media dan Internet Indonesia 2022
Ukuran Kapasitas Data Bit, Byte, KB, MB, GB Dan Seterusnya
Tsunami Data Sebagai Lonjakan Pengetahuan Digital
1 Hour Online Training: Data Mining
Pengertian Statistik Beserta Kegunaan, Manfaat dan Contoh
Metode Heuristik dalam Algoritma Runut Balik - Informatika
Apa itu Data Mining? Pengertian, Metode, TahapanÂ
[Data Mining] Estimasi dan Forecasting... Regresi Linier...
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H