Ketika melakukan data mining, tentunya kita memerlukan suatu data. Dimana data tersebut akan menjadi suatu knowledge (pengetahuan) yang dapat digunakan pada data preprocessing. Tapi pertanyaannya apa yang dapat kita pelajari dari data tadi sehingga membantu ketika data preprocessing? Simak penjelasan artikel ini hingga akhir.
1. Objek Data dan Tipe Atribut
Data sets (kumpulan data) terdiri dari obje data. Objek data tersebut mewakili suatu entitas. Misalnya pada database penjualan, objeknya bisa pelanggan, item toko, dan penjualannya.Â
Pada database suatu universitas, objek di dalamnya bisa mahasiswa, professor atau dosen dan mata kuliah. Objek data dapat dijelaskan oleh atribut. Objek data biasa juga disebut sebagai sampel. Objek data yang disimpan dalam database biasa disebut sebagai tupel data, yang artinya baris database itu berisi objek data sedangkan kolom berisi atribut.
Lalu apa itu atribut ? Atribut adalah bidang data, yang mewakili karakteristik atau fitur dari objek data. Atribut kata bendanya itu ada dimensi, fitur dan variabel. Ketiganya sering digunakan secara bergantian dalam literatur.Â
Istilah dimensi biasa digunakan dalam data warehousing. Istilah fitur biasa digunakan pada literatur pembelajaran mesin, sedangkan ahli statistik menggunakan istilah variabel.Â
Namun pada data mining ini kita gunakan saja istilah atribut. Atribut yang dijelaskan oleh objek pelanggan dapat mencakup ID pelanggan, nama, dan juga alamat.Â
Adapun jenis atribut dibagi berdasarkan kumpulan nilai yang mungkin, yaitu nominal, biner, ordinal atau numerik (atribut yang mungkin). Berikut penjelasan dari masing-masing jenis atribut :
- Nominal dapat kita artikan sebagai hal yang berkaitan dengan nama, dimana nilainya addalah simbol atau suatu nama benda. Setiap nilai mewakili beberapa jenis kategori, kode atau keadaan. Contoh dari atribut nominal agar kita lebih memahaminya yaitu warna rambut dan status perkawinan. Keduanya merupakan dua atribut yang dapat menggambarkan objek orang.
- Atribut biner hanya mempunyai dua kategori atau dua status, yaitu 0 dan 1. 0 dan 1? Maksudnya apa? Jadi biasanya 0 dapat diartikan sebagai atribut tidak ada sedangkan 1 berarti ada. Tambah bingung ? Jadi gini atribut biner ini dapat disebut sebagai Boolean, dimana keadaan yang akan diberikan kategori atau status bisa benar atau salah. Contohnya untuk lebih paham, suatu klinik atau rumah sakit memiliki seorang pasien dimana pasien ini melakukan tes medis yang pastinya pada tes tersebut ada dua kemungkinan, dimana nilai 1 berarti hasil tes tersebut positif dan nilai 0 yang berarti hasilnya negatif.
- Atribut Ordinal adalah atribut dengan kemungkinan nilainya itu memiliki urutan atau peringkat. Atribut ordinal dapat berguna ketika penilaian subjektid dari suatu kualitas yang tidak dapat diukur secara objektif. Misalnya dalam suatu survei suatu toko, seseorang diminta untuk menilai seberapa puas mereka sebagai pelanggan, dimana pelanggan tersebut dapat memilih beberapa kategori ordinal -> 0 : sangat tidak puas; 1: agak tidak puas; 2 : netral; 3 : puas; 4 : sangat puas.
- Atribut Numerik bersifat kuantitatif. Dimana itu adalah nilai, yang diwakili dalam bilangan bulat atau nyata. Pada atribut numerik ini dapat berupa skala interval atau skala rasio. Skala interval diukur pada skala unit dengan ukuran yang sama. Contohnya atribut yang berskala interval adalah atribut suhu. Skala Rasio adalah atribut numerik dengan titik 0 yang melekat atau bawaan.
Algoritma klasifikasi yang dikembangkan dari pembelajaran mesin sering kali berbicara tentang atribut sebagai diskrit atau kontinu. Atribut diskrit memiliki kumpulan nilai yang terbatas atau tak terbatas, yang mungkin atau tidak direpresentasikan sebagai bilangan bulat.Â
Atribut warna rambut, tes Kesehatan, dan ukuran minuman masing-masing memiliki jumlah nilai yang tak terbatas, begitupun diskrit.Â
Suatu atribut terhitung tak hingga jika himpunan nilai yang mungkin tak terhingga tetapi nilainya dapat dimasukkan ke dalam korespodensi satu-satu dengan bilangan asli.Â
Misalnya, ID pelanggan yang terhitung tak berbatas. Namun jumlah pelanggan tersebut kumpulan nilainya maish dapat dihitung. Jika suatu atribut tidak diskrit maka disebut atribut kontinu.
 Atribut kontinu dan atribut numerik sering kali digunakan secara bergantian dalam literatur. Atribut numerik berupa bilangan bulat sedangkan atribut kontinu berupa bilangan real.
2. Deskripsi Statistik Dasar Data
Pada proses data preprocessing penting untuk memiliki gambaran keseluruhan data agar proses ini berhasil. Deskripsi statistic dapat digunakan untuk mengidentifikasi properti data dan nilai data mana yang harus diperlakukan sebagai noise atau outlier. Adapun tiga bidang deksripsi statistic dasar, yaitu ukuran tendensi sentral, ukuran disperse data, dan tampilan grafisnya.
Pada ukuran tendensi sentral meliputi mean, median, dan modus. Kemudian ketika mengukur data disperse, ada yang namanya Quartiles, Inter-quartile range, five number summary, boxplot, outlier, variance, dan standard deviation. Untuk menampilkan tampilan grafis dari deskripsi statistic dasar, ada yang namanya quantile plot, quantile-quantile plots, histogram dan scatter plot.
3. Visualisasi Data
Bagaimana kita dapat menyampaikan data kepada pengguna secara efektif ? Untuk menjawab pertanyaan ini, kita dapat menggunakan visualisasi data. Dimana visualisasi data ini bertujuan untuk mengkomunikasikan data secara jelas dan efektif melalui representasi grafis. Visualisasi data ini telah sering digunakan di banyak aplikasi, misalnya ditempat kerja untuk pelaporan, pengelolaan operasi bisnis, dan kemajuan tugas.Â
Selain itu teknik visualisasi ini juga popular untuk menemukan hubungan data yang tidak mudah diamati dengan hanya melihat data mentah. Teknik visualisasi data ada beberapa pendekatan secara representative, termasuk teknik piksel, teknik penilaian geometris, teknik berbasis ikon, dan teknik berbasis hierarki dan grafik.
4. Mengukur Persamaan dan Ketidaksamaan Data
Dalam pengaplikasian data mining, seperti clustering, analisis outlier, dan nearest-neighbor classification, kita memerlukan cara untuk menilai seberapa mirip atau tidaknya objek yang satu dengan yang lainnya.Â
Cluster adalah kumpulan objek data sedemikian rupa sehingga objek dalam suatu cluster mirip satu sama lain dan tidak mirip dengan objek di cluster lain. Analisis outlier juga menggunakan teknik berbasis clustering untuk mengidentifikasi outlier potensial sebagai objek yang berbeda dengan objek yang lain.Â
Ketika mengukur kesamaan dan ketidaksamaan, kita dapat menyebutnya juga sebagai ukuran kedekatan. Sebagai informasi juga, biasanya untuk mengukur ukuran jarak unntuk menghitung ketidakmiripan suatu objek menggunakan atribut numerik. Langkah-langkah yang digunakan termasuk jarak Euclidean, Manhattan, dan Minkowski
Demikian pengenalan data pada data mining yang dapat saya jelaskan pada artikel ini, semoga dapat membantu dan menambah pengetahuan teman-teman mengenai Data Mining. Tolong berikan reaksi atau tanggapan anda terhadap artikel saya ini. Terima kasih.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H