Pada zaman sekarang ini, kehidupan kita dikelilingi oleh data. Sebab, manusia memproduksi data dengan jumlah dan ukurannya sangat besar yang mana data selalu mengalami pertumbuhan setiap masanya. Bila kita tinjau ukuran data ialah sebagai berikut.
- kilobyte (kB) = 10^3
- megabyte (MB)= 10^6
- gigabyte (GB) = 10^9
- terabyte (TB) = 10^12
- petabyte (PB) = 10^15
- exabyte (EB) = 10^18
- zettabyte (ZB) = 10^21
- yottabyte (YB) = 10^24
Pada Era Web 1.0 sekitar tahun (1990-1999), penggunaan website Amazon belum terlalu banyak. Yang mana para era tersebut kita tidak dapat melakukan banyak kontribusi misalnya berinteraksi terhadap sesama pengguna seperti yang kita lakukan di masa sekarang ini.Â
Hingga akhirnya, muncul sosial media sekitar tahun 2002 yang banyak diminati. Pada era ini, orang-orang dapat melakukan kontribusi-kontribusi dalam sosial media serta pengaksesannya mudah didapat. Era ini dinamakan Era Web 2.0.
Web 2.0 sebagai generasi di mana layanan berbasis web dalam dunia komputer dapat dijalankan langsung dengan internet sebagai platformnya. Pada era ini, kehidupan dunia maya sangat dirasakan, seperti adanya penggunaan Blog, Friendster, Facebook, Twitter, Youtube, Wikipedia, dan lainnya.
Jadi, pada Era Web 1.0, data yang dihasilkan masyarakat tidak begitu banyak karena aktivitas yang dilakukan di dalamnya hanya sedikit.
Sedangkan, pada Era Web 2.0, masyarakat mulai memberikan kontribusi dengan melakukan berbagai aktivitas sehingga setiap orang mampu menghasilkan data yang banyak per detiknya.
Contoh yang dapat kita lihat salah satunya ialah penggunaan pada Twitter. Banyaknya jumlah tweet dalam sekian detik, yaitu sekitar 278 ribu.Â
Berikutnya, jumlah post pada Facebook yaitu 41 ribu per detik, 1.8 juta likes, and 350 GB data yang masuk.Â
Dan contoh lainnya ialah 15 ribu track yang di-download dari iTunes dan masih banyak lagi.Â
Contoh-contoh tersebut membutikan bahwa manusia sangat sering memproduksi data untuk setiap detiknya.
Namun dari banyaknya data yang masuk, apakah semua data yang ada merupakan data yang bermanfaat? Tentu saja tidak.Â
Sehingga untuk menghasilkan sesiatu yang bermanfaat, data harus kita olah menjadi suatu pengetahun. Dengan pengetahuan tersebut, manusia dapat:
- Melakukan estimasi dan prediksi terhadap apa yang akan terjadi di masa depan
- Melakukan analisis tentang asosiasi, korelasi, dan pengelompokan antar data dan atribut
- Memabantu pengambilan keputusan dan pembuatan kebijakan
Data -> Informasi -> Pengetahuan -> Kebijakan
Proses pengekstrakan data menjadi pengetahuan dinamakan data mining. Berdasarkan penjelasan pada video Kak Romi, beliau mengartikan bahwa
Data Mining adalah disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemukan pola dari suatu data yang besar.
Adapun tahap pengekstrasian data menjadi pengetahuan, ialah sebagai berikut.
1. Data -> Fakta yang terekam dan tidak memiliki arti
2. Informasi -> Rekap, rangkuman, penjelasan, dan statistik dari data
3. Pengetahuan -> Pola, rumus, aturan atau model yang muncul dari data
 Definisi Data Mining Menurut Beberapa Sumber
- Melakukan ekstraksi untuk mendapatkan informasi penting yang sifatnya implisit dan sebelumny tidak iketahui dari suatu data (Witten et al., 2011)
- Kegiatan yang meliputi pengumpulan, pemakaian data histois untuk menemukan keteratutan, pola dan hubungan dalam set data berukuran besar (Santosa, 2007)
- Extraction of interesting (non-trivial, implicit, previously unknown and potentially useful) patterns or knowledge from huge amount of data (Han et al, 2011)
Beberapa studi kasus yang dapat diolah datanya menjadi suatu pengetahuan sampai akhirnya dapat membuat sutau kebijakan, pola, ataupun prediksi antara lain sebagai berikut.
- Data di kampus dapat diolah sehingga dapat membuat prediksi kelulusan mahasiswa
- Data di komisi pemilihan umum yang diolah menjadi prediksi calon legislatif DKI Jakarta. Prediksi ini misalnya menggambarkan kriteria atau ciri-ciri yang diprediksi dapat terpilih menjadi seorang legislatif.
- Profiling dan prediksi koruptor. Dengan diolahnya data profil mereka, kita bisa menemuka pola profil tersangka koruptor.
- Data statistik kemiskinan dibuat menjadi bentuk klasterisasi tingkat kemiskinan.
Hubungan Data Mining dengan Bidang Lain
1. Pattern Recognition
2. Machine Learning
3. Statistics
4. Computing Algorithms
5. Database Technology
Masalah-Masalah di Data Mining
1. Ukuran data yang besar,
2. Terlalu banyak atribut,
3. Bentuk data sangat beragam, dan
4. Belum mengetahui tujuan yang memerlukan data mining.
Peran Utama dan Metode Data Mining
Data mining dapat kita lakukan dengan metode atau peran sehingga akhirnya kita mendapatkan suatu pengetahuan. Metode ini anta lain:
1. Estimasi
2. Forecasting
3. Klasifikasi
4. Klastering
5. Asosiasi.
Kita perlu mempunyai dataset (himpunan data). Dalam himpunan data yang dimiliki, terdapat data yang dapat dihitung secara aritmatik (data numerik) dan yang tidak dapat dihitung secara aritmatik (data nominal).  Estimasi dan Forecasting memiliki atribut dan class numerik.  Namun, Forecating punya atribut dan series.  Dan setiap metode lainnya pun memiliki perbedaan sehingga perlu dilatih untuk menemukan dan dapat menerapkan metode-metode tersebut.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H