Hallo teman-teman pada artikel ini berisi penjelasan tentang tahapan, jenis, karakteristik, tipe dan teknik data mining yang dibahas pada pertemuan kedua mata kuliah Data Mining. Berikut ini penjelasannya.
1. Data Mining
Data Mining merupakan ektraksi data yang dilakukan untuk membentuk suatu pola atau pattern yang menarik, memiliki sifat implisit, sebelumnya tidak diketahui, non-trivial dan berpotensi berguna. Data mining memiliki beberapa fungsi seperti generalisasi yang terbagi beberapa yaitu karakterisasi dan diskriminasi. Dalam karakterisasi ciri-ciri atau atribut dalam class nya dapat di deskripsikan. Diskriminasi merupakan karakteristik yang berfungsi untuk membedakan class. Selain generalisasi terdapat beberapa fungsi lainnya seperti asosiasi  dan korelasi yang menggambarkan hubungan antar atribut, classification (menghasilkan label dari ciri-ciri atau atribut) dan reggression (pencarian nominal value dan ciri-ciri), cluster analysis data untuk melatih mesin yang tidak memiliki label digunakan pada preposition classification dan outlier analysis transaksi normal yang memiliki jumlah besar dan mendeteksi terjadinya maslah pada transaksi yang dilakukan (mendeteksi kejadian janggal/ anomali).
2. Task Data Mining
Secara umum terdapat tiga jenis task yang biasanya digunakan pada data mining dan KDD (Knowledge Discovery in Database) yaitu:
- Prediction, didefinisikan sebagai tindakan yang dilakukan untuk mencari tahu apa yang akan terjadi kedepannya. Prediksi ini diperoleh dari bentuk pola data yang sudah diolah dan divisualisasikan.
- Association, sebuah teknik yang dilakukan untuk mencari hubungan dari variabel data yang beragam, bisa saja memiliki keterikatan antara 2 atau lebih variabel sehingga bisa digunakan dalam data mining.
- Segmentation, merupakan pengklasifikasian data pada cluster tertentu sesuai dengan kemiripan dari karakteristik data.
3. Jenis Atribut Data Mining
Ketika kita mempelajari data mining tentunya objek yang paling utama diolah adalah data itu sendiri. Data adalah sekumpulan fakta atau objek dan atributnya. Atribut merupakn karakteristik atau properti dari objek tertentu. Jenis atribut atau nilai dari kolom ada beberapa, diantaranya adalah :
- Nominal yang merupakan kategori class yang tidak memiliki perbedaan nilai atau rangking. Contoh pekerjaan (Dosen, PNS).
- Binary merupakan atribut yang tidak memiliki perbedaan dan hanya memiliki 2 states, contohnya seperti jenis kelamin (perempuan, laki-laki).
- Ordinal merupakan kategori class yang memiliki nilai rangking, contohnya seperti jabatan, jenjang pendidikan, dll.
- Numeric merupakan kuantitas yang memiliki ukuran nilai yang memiliki jarak yang jelas, contohnya adalah umur. Numeric ini memiliki 2 jenis, yaitu rasio dan interval.
4. Karakteristik Dataset
Dataset tersusun dari data objek (sampel/ 1 kolom) yang dideskripsikan oleh atribut. Misalnya atribut yang dimiliki oleh tubuh kucing adalah berat badan, warna bulu, suhu badan, warna mata, dsb. Dalam pengolahan data tersebut biasa diguakan tipe dataset. Dataset biasanya di definisikan sebgai himpunan atau kumpulan dari data-data dan disajikan dengan pola tabel. Penyajian data menggunakan tipe dataset ini tentunya dapat mempermudah seseorang ketika hendak membaca data yang akan diolah karena dalam penyajian tipe dataset ini setiap kolom dalam tabel data dapat mendeskripsikan atau menggambarkan variabel tertentu sehingga terdapatlah beberapa variabel dalam satu dataset.  Tipe dataset ada beberapa, yaitu ordered, graph and network, spatial dan record.
Dalam data mining terdapat karakteristik penting dari dataset yaitu:
- Dimensionality adalah karakteristik dataset yang mengolah data multidimensional sehingga menyebabkan data yang diolahmemiliki dimensi yang besar dan usaha yang dilakukan juga semakin besar. Hasil dari pengolahan data ini belum tentu lebih baik karena adanya korelasi data yang memberikan korelasi sempit terutama saat menggunakan machine learning ketika mengklasifikasikan data sehingga tak jarang usaha yang dilakukan menjadi sia-sia.
- Sparsity merupakan terjadinya titik jarang atau kekosongan dalam data. Hal ini dapat terjadi pada data multidimensional.
- Resolution merupakan skala pada data dan resolusi yang berbeda. Level resolusi mempengaruhi pola dalam data, jika resolusinya terlalu kasar maka pola akan hilang dan begitu juga ketika resolusi terlalu halus menyebabkan pola mungkin tidak akan terlihat.
- Distribution merupakan sifat penyebaran data dan sejauh mana renggang atau jarak dari data tersebut.
5. KDDÂ (Knowledge Discovery in Database)
KDD atau singkatan dari Knowlage Discovery in Database merupakan salah satu metode dalam melakukan data mining. Adapun tahapan KDD tersebut adalah :
- Data Cleansing, merupakan tahapan utama yang menyortir atau memilah data yang akan dipakai atau data yang akan diolah.
- Data Integration, adalah tahapan menggabungkan data yang berulang menjadi satu.
- Selection, merupakan proses seleksi data terhadap analisis yang dianggap relevan.
- Data Transformation, merupakan proses transformasi ke dalam bentuk mining procedure dari data yang telah dipilih.
- Data Mining, merupakan proses yang dilakukan dalam mengekstraksi pola-pola potensial dalam berbagai teknik untuk menghasilkan data yang berguna.
- Pattern Evolution, Merupakan proses terhadap pola yang telah di identifikasi dari measure yang diberikan.
- Knowlage Presentation, merupakan tahapan akhir dari KDD, dimana pada tahapan ini data yang telah diproses ditampilkan atau divisualisasikan sehingga dapat dengan mudah di baca dan di pahami oleh pengguna dan dapat diambil tindakan berdasarkan analisis.
Sumber Referensi :
- https://hanj.cs.illinois.edu/bk3/bk3_slidesindex.htm
- https://student-activity.binus.ac.id/bslc/wp-content/uploads/sites/49/2017/11/IT_Data-Mining.pdf
Follow Instagram @kompasianacom juga Tiktok @kompasiana biar nggak ketinggalan event seru komunitas dan tips dapat cuan dari Kompasiana
Baca juga cerita inspiratif langsung dari smartphone kamu dengan bergabung di WhatsApp Channel Kompasiana di SINI