Inilah ringkasan materi yang telah saya dapatkan saat perkuliahan pada tanggal 15 september 2022
penambangan data dapat di lihat tahapan proses dan penjelasannya sebagai berikut:
1. Pemilihan Data
Pemilihan  informasi dari sejumblah informasi operasional harus dilakukan sebelum memulai tahap ekstraksi informasi KDD. Informasi dari pilihan yang digunakan untuk proses penambangan informasi disimpan dalam file terpisah dari database operasional.
2. Pre-processing/pembersihan (penyortiran data)
Sebelum kita dapat melakukan proses data mining, kita perlu melakukan pembersihan data, yang menjadi fokus KDD. Proses pembersihan meliputi antara lain menghapus data yang berlebihan, memeriksa data yang tidak konsisten, dan memperbaiki kesalahan pada data, seperti kesalahan cetak (tipografi). Penyortiran juga dilakukan. Artinya, proses "memperkaya" data yang ada dengan data atau informasi lain yang relevan yang dibutuhkan oleh KDD, termasuk data dan informasi eksternal.
3. Transformasi (Modifikasi)
Coding adalah cara mengubah data yang dipilih sehingga valid untuk proses data mining. Pengkodean dalam KDD adalah proses kreatif dan sangat bergantung pada jenis atau gaya informasi yang dicari dalam database.
4. Penambangan Data (Data Mining)
Data mining adalah proses pencarian pola dan informasi menarik pada data terpilih dengan menggunakan teknik dan metode tertentu. Teknik, metode, atau algoritma data mining sangat bervariasi. Memilih metode atau algoritma yang tepat sangat bergantung pada tujuan Anda dan proses KDD secara keseluruhan.
5. Interpretasi/EvaluasiÂ
Pola informasi yang dihasilkan oleh proses data mining harus disajikan dalam bentuk yang mudah dimengerti oleh pihak yang berkepentingan. Tahap ini merupakan bagian dari proses KDD yang disebut interpretasi. Tahap ini meliputi pengecekan untuk melihat apakah ada pola atau informasi yang bertentangan dengan fakta atau hipotesis yang ada.
Metode Data Mining
Metode data mining dapat dikategorikankan berdasarkan fungsi yang dilakukan atau berdasarkan jenis aplikasi yang menggunakannya:
* Klasifikasi (supervised)
Dalam masalah klasifikasi, saya memiliki beberapa kasus (data sampel) dan saya ingin memprediksi beberapa kelas yang ada dalam data sampel.
* Clustering (unsupervised)
Clustering adalah teknik yang berguna untuk mengeksplorasi data. Sebagian besar digunakan dan biasanya tidak dirakit. Dalam hal ini, Anda dapat menggunakan algoritma data mining untuk menemukan cluster dalam data
* Association Rules (unsupervised)
fungsi Aturan Asosiasi sering disebut sebagai "analisis keranjang pasar" dan digunakan untuk menemukan hubungan atau korelasi antara satu set item.
* Attribute Importance (supervised)
Atribut penting (juga dikenal sebagai pemilihan fitur) memberikan solusi otomatis untuk meningkatkan kecepatan dan akurasi model klasifikasi berdasarkan tabel data dengan sejumlah besar atribut.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H