Masalah-Masalah di Data Mining
- Data yang besar
- Atribut yang banyak
- Data yang beraneka ragam
- Ide untuk memanfaatkan datanya untuk apa
- Estimasi, data atribut dan classnya numerik sehingga nantinya akan dilakukan pembelajaran dengan metode estimasi (misal regresi linear) yang bisa digunakan untuk prediksi. Contohnya estimasi waktu pengiriman pizza dengan 1000 customer dan atribut jumlah pesanan, jumlah traffic light, jarak, dan class waktu tempuh untuk memprediksi waktu tempuh pengiriman pizza. Termasuk superviced learning karena memiliki label.
- Forecasting, sama dengan estimasi yang data atribut dan classnya numerik. Namun, yang membedakan paa forecasting ada atribut yang berupa time series, seperti date. Pembelajaran dengan melakukan metode forecasting (misal neural network) untuk melakukan forecasting, seperti forecasting cuaca dan tingkat inflasi. Termasuk superviced learning karena memiliki label.
- Klasifikasi, data atribut bisa nominal dan numerik, tapi classnya pasti nominal dengan melakukan pembelajaran metode klasifikasi (misal C4.5) yang bisa digunakan untuk prediksi. Termasuk superviced learning karena memiliki label.
- Klastering, dataset tanpa label yang melakukan pembelajaran dengan metode klastering (misal K-Means) yang bisa digunakan untuk mengelompokkan. Termasuk unsuperviced learning karena tidak memiliki label.
- Asosiasi, dataset bisa nominal ataupun numerik dan tanpa label juga, tapi dengan memperhatikan hubungan antar atribut dengan melakukan pembelajaran metode asosiasi (misal FP-Growth) yang bisa digunakan untuk melakukan analisis. Misalnya pada pembelian barang oleh customer nantinya diperoleh analisis "jika membeli sabun, maka membeli fanta" dengan nilai support = 200/1000 = 20%. Tidak termasuk dalam superviced learning ataupun unsuperviced learning.
- Estimation (Estimasi) menggunakan algoritma Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine (SVM), Generalized Linear Model (GLM), etc.
- Forecasting (Prediksi/Peramalan) menggunakan algoritma Linear Regression (LR), Neural Network (NN), Deep Learning (DL), Support Vector Machine (SVM), Generalized Linear Model (GLM), etc.
- Classification (Klasifikasi) menggunakan algoritma Decision Tree (CART, ID3, C4.5, Credal DT, Credal C4.5, Adaptative Credal C4.5), Naive Bayes (NB), K-Nearest Neightbor (kNN), Linear Discriminant Analysis (LDA), Logistic Regression (LogR), etc.
- Clustering (Klastering) menggunakan algoritma K-Means, K-Medoids, Self-Organizing Map (SOM), Fuzzy C-Means (FCM), etc.
- Association (Asosiasi) menggunakan algoritma FP-Growth, A Priori, Coefficient of Correlation, Chi Square, etc.
Hukum pada Data Mining
- Business Goals Law, ada tujuanmau dipakai untuk apa
- Business Knowledge Law, membutuhkan pengetahuan mengenai data
Contoh Penerapan Data Mining dalam Kehidupan Sehari-hari
- Penentuan kelayakan kredit pemilihan rumah di bank
- Penentuan pasokan listrik PLN untuk wilayah Jakarta
- Prediksi profile tersangka koruptor dari data pengadilan
- Perkiraan harga saham dan tingkat inflasi
- Analisis pola belanja pelanggan
- Memisahkan minyak mentah dan gas alam
- Penentu pola pelanggan yang loyal pada perushaan operator telepon
- Deteksi pencucian uang dari transaksi perbankan
- Deteksi serangan (instrusion) pada suatu jaringan
Sekian dulu pembahasan kita mengenai peran utama dan metode pada data mining besert contoh penerapannya. Terima kasih, semoga bermanfaat.
Artikel ini bersumber dari video youtube mengenai data mining yang selengkapnya dapat ditonton di bawah ini.
Follow Instagram @kompasianacom juga Tiktok @kompasiana biar nggak ketinggalan event seru komunitas dan tips dapat cuan dari Kompasiana
Baca juga cerita inspiratif langsung dari smartphone kamu dengan bergabung di WhatsApp Channel Kompasiana di SINI
Beri Komentar
Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!