Sebelumnya kita telah melakukan pembahasan tentang pengenalan data mining dan tahapan proses pada data mining. Nah selanjutnya untuk lebih meningkatkan pemahaman kita mengenai data mining, kali ini kita akan membahas peran utama pada data mining dan metode-metode yang digunakan beserta contoh penerapannya dalam kehidupan sehari-hari. Jadi, sebelum lanjut silahkan cek materi sebelumnya di link berikut jika belum:
Tahapan Proses Data Mining/Knowledge Discovery (KDD)
Â
Perlu kita ingat, singkatnya data mining adalah disiplin ilmu yang mempelajari metode untuk mengekstrak pengetahuan atau menemmukan pola dari data yang besar. Konsep dasar data mining secara sederhana dapat digambarkan sebagai berikut.
Himpuninan data => metode data mining => pengetahuan
Contoh : Himpunan data dari pulahn ribu mahasiswa, seperti nim, nama, gender, nilai, waktu lulus yang kemudian diolah dengan metode/algoritma klasifikasi decision tree hingga diperolehlah pengetahuan untuk memprediksi kelulusan mahasiswa.
Himpunan data yang kita miliki dalam data mining disebut dengan data set yang terdiri dari dari baris (record/object/sample/tuple/data) dan kolom (atribut/feature/dimension). Ada satu atribut yang ditetapkan sebagai class/label/target yang akan menjadi data utama untuk diprediksi. Kemudian ada juga yang disebut dengan tipe data, pada data mining awalnya itu dibagi dua dengan data yang bisa dihitung/tambah kurang bagi (numerik) dan tidak bisa dihitung/tambah kurang bagi (nominal).
Hubungan Data Mining dan Bidang Lain
- Pattern Recognition, pada data mining kita harus memahami pola
- Statistics, pada data mining nantinya kita akan ketemu dengan data statistik
- Computing Algorthms, metode pada data mining berhubungan dengan algortima komputasi
- Database Technology, pada data mining himpunan data berhubungan dengan database teknologi
- Machine Learning, sistem data mining berhubungan dengan machine learning atau kecerdasan buatan seperti manusia yang belajar dari pengalaman atau banyak data yang dimiliki.
Â
Masalah-Masalah di Data Mining
- Data yang besar
- Atribut yang banyak
- Data yang beraneka ragam
- Ide untuk memanfaatkan datanya untuk apa
- Estimasi, data atribut dan classnya numerik sehingga nantinya akan dilakukan pembelajaran dengan metode estimasi (misal regresi linear) yang bisa digunakan untuk prediksi. Contohnya estimasi waktu pengiriman pizza dengan 1000 customer dan atribut jumlah pesanan, jumlah traffic light, jarak, dan class waktu tempuh untuk memprediksi waktu tempuh pengiriman pizza. Termasuk superviced learning karena memiliki label.
- Forecasting, sama dengan estimasi yang data atribut dan classnya numerik. Namun, yang membedakan paa forecasting ada atribut yang berupa time series, seperti date. Pembelajaran dengan melakukan metode forecasting (misal neural network) untuk melakukan forecasting, seperti forecasting cuaca dan tingkat inflasi. Termasuk superviced learning karena memiliki label.
- Klasifikasi, data atribut bisa nominal dan numerik, tapi classnya pasti nominal dengan melakukan pembelajaran metode klasifikasi (misal C4.5) yang bisa digunakan untuk prediksi. Termasuk superviced learning karena memiliki label.
- Klastering, dataset tanpa label yang melakukan pembelajaran dengan metode klastering (misal K-Means) yang bisa digunakan untuk mengelompokkan. Termasuk unsuperviced learning karena tidak memiliki label.
- Asosiasi, dataset bisa nominal ataupun numerik dan tanpa label juga, tapi dengan memperhatikan hubungan antar atribut dengan melakukan pembelajaran metode asosiasi (misal FP-Growth) yang bisa digunakan untuk melakukan analisis. Misalnya pada pembelian barang oleh customer nantinya diperoleh analisis "jika membeli sabun, maka membeli fanta" dengan nilai support = 200/1000 = 20%. Tidak termasuk dalam superviced learning ataupun unsuperviced learning.
- Estimation (Estimasi) menggunakan algoritma Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine (SVM), Generalized Linear Model (GLM), etc.
- Forecasting (Prediksi/Peramalan) menggunakan algoritma Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine (SVM), Generalized Linear Model (GLM), etc.
- Classification (Klasifikasi) menggunakan algoritma Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative Credal C4.5), Naive Bayes (NB), K-Nearest Neightbor (kNN), Linear Discriminant Analysis (LDA), Logistic Regression (LogR), etc.
- Clustering (Klastering) menggunakan algoritma K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means (FCM), etc.
- Association (Asosiasi) menggunakan algoritma FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc.
Hukum pada Data Mining
- Business Goals Law, ada tujuanmau dipakai untuk apa
- Business Knowledge Law, membutuhkan pengetahuan mengenai data
Contoh Penerapan Data Mining dalam Kehidupan Sehari-hari
- Penentuan kelayakan kredit pemilihan rumah di bank
- Penentuan pasokan listrik PLN untuk wilayah Jakarta
- Prediksi profile tersangka koruptor dari data pengadilan
- Perkiraan harga saham dan tingkat inflasi
- Analisis pola belanja pelanggan
- Memisahkan minyak mentah dan gas alam
- Penentu pola pelanggan yang loyal pada perushaan operator telepon
- Deteksi pencucian uang dari transaksi perbankan
- Deteksi serangan (instrusion) pada suatu jaringan
Sekian dulu pembahasan kita mengenai peran utama dan metode pada data mining besert contoh penerapannya. Terima kasih, semoga bermanfaat.
Artikel ini bersumber dari video youtube mengenai data mining yang selengkapnya dapat ditonton di bawah ini.