pada artikel sebelumnya telah dijelaskan apa itu data mining, metode dan tujuan data mining. Dari artikel tersebut dapat diketahui bahwa data mining juga dikenal dengan istilah knowledge discovery from data yaitu pencarian pengetahuan yang sebelumnya tidak diketahui dan berpotensi digunakan di kemudian hari.
nah pada artikel ini akan dibahas karakteristik data, atribut dan proses mengolah data dari database hingga menghasilkan informasi sesuai kebutuhan.
Karakteristik Data
Dimensionality : karakteristik dataset yang mengolah data multi dimensional sehingga menyebabkan data yang diolah memiliki dimensi yang besar dan usaha yang dilakukan juga semakin besar.
Sparsity : merupakan munculnya data yang kosong sehingga membuat titik-titik jarang pada pola.
Resolution : skala dan resolusi pada data
Distribution : sifat penyebaran data atau jarak dari data tersebut.
Atribut Data
Nominal :Â Nilai atribut berupa nominal pemberian nama.
Binary  : nilai atribut yang hanya berupa 2 niilai mutlak.Â
Numerik : nilai atribut yang memiliki nilai bilangan bulat atau bilangan riil.
Ordinal : Nilai Atribut berupa nilai urutan peringkat tetapi besar nilai peringkat yang berurutan tidak diketahui.
Tahapan Knowledge discovery from data (KDD)
1. Â Data Cleaning : Data Cleaning merupakan penghapusan data yang noisy dan tidak relevan dari pengumpulan. Misalnya seperti data - data yang tidak lengkap , noisy, data yang bersifat null, dan data ganda.
2. Data Integration : tahapan menggabungkan beberapa data yang telah diperoleh kemudian disimpan ke dalam suatu tempat yang sama. Tempat disebut sebagai "Data Warehouse".
3. Data Selection : proses di mana data yang relevan dengan analisis dipilih dan diambil. Pemilihan data dapat menggunakan Neural network, Decision Tree, Naive bayes, Clustering, Regression, dll.
4. Data Transformation : proses mengubah data menjadi bentuk yang sesuai kebutuhan.
5. Data Mining: merupakan proses memasukkan metode algoritma (Clasification, Clustering, dan Asosiation).
6. Pattern Evaluation : tahapan melakukan evaluasi untuk memperoleh pola yang sesuai dengan kebutuhan.
7. Knowledge representation : Merupakan Tahap visualisasi dari hasil data mining. Bisanya dalam bentuk sebuah grafik.
Referensi :Â
https://www.geeksforgeeks.org/kdd-process-in-data-mining/
https://hanj.cs.illinois.edu/bk3/bk3_slidesindex.htm
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H