Ketika melakukan data mining, tentunya kita memerlukan suatu data. Dimana data tersebut akan menjadi suatu knowledge (pengetahuan) yang dapat digunakan pada data preprocessing. Tapi pertanyaannya apa yang dapat kita pelajari dari data tadi sehingga membantu ketika data preprocessing? Simak penjelasan artikel ini hingga akhir.
1. Objek Data dan Tipe Atribut
Data sets (kumpulan data) terdiri dari obje data. Objek data tersebut mewakili suatu entitas. Misalnya pada database penjualan, objeknya bisa pelanggan, item toko, dan penjualannya.Â
Pada database suatu universitas, objek di dalamnya bisa mahasiswa, professor atau dosen dan mata kuliah. Objek data dapat dijelaskan oleh atribut. Objek data biasa juga disebut sebagai sampel. Objek data yang disimpan dalam database biasa disebut sebagai tupel data, yang artinya baris database itu berisi objek data sedangkan kolom berisi atribut.
Lalu apa itu atribut ? Atribut adalah bidang data, yang mewakili karakteristik atau fitur dari objek data. Atribut kata bendanya itu ada dimensi, fitur dan variabel. Ketiganya sering digunakan secara bergantian dalam literatur.Â
Istilah dimensi biasa digunakan dalam data warehousing. Istilah fitur biasa digunakan pada literatur pembelajaran mesin, sedangkan ahli statistik menggunakan istilah variabel.Â
Namun pada data mining ini kita gunakan saja istilah atribut. Atribut yang dijelaskan oleh objek pelanggan dapat mencakup ID pelanggan, nama, dan juga alamat.Â
Adapun jenis atribut dibagi berdasarkan kumpulan nilai yang mungkin, yaitu nominal, biner, ordinal atau numerik (atribut yang mungkin). Berikut penjelasan dari masing-masing jenis atribut :
- Nominal dapat kita artikan sebagai hal yang berkaitan dengan nama, dimana nilainya addalah simbol atau suatu nama benda. Setiap nilai mewakili beberapa jenis kategori, kode atau keadaan. Contoh dari atribut nominal agar kita lebih memahaminya yaitu warna rambut dan status perkawinan. Keduanya merupakan dua atribut yang dapat menggambarkan objek orang.
- Atribut biner hanya mempunyai dua kategori atau dua status, yaitu 0 dan 1. 0 dan 1? Maksudnya apa? Jadi biasanya 0 dapat diartikan sebagai atribut tidak ada sedangkan 1 berarti ada. Tambah bingung ? Jadi gini atribut biner ini dapat disebut sebagai Boolean, dimana keadaan yang akan diberikan kategori atau status bisa benar atau salah. Contohnya untuk lebih paham, suatu klinik atau rumah sakit memiliki seorang pasien dimana pasien ini melakukan tes medis yang pastinya pada tes tersebut ada dua kemungkinan, dimana nilai 1 berarti hasil tes tersebut positif dan nilai 0 yang berarti hasilnya negatif.
- Atribut Ordinal adalah atribut dengan kemungkinan nilainya itu memiliki urutan atau peringkat. Atribut ordinal dapat berguna ketika penilaian subjektid dari suatu kualitas yang tidak dapat diukur secara objektif. Misalnya dalam suatu survei suatu toko, seseorang diminta untuk menilai seberapa puas mereka sebagai pelanggan, dimana pelanggan tersebut dapat memilih beberapa kategori ordinal -> 0 : sangat tidak puas; 1: agak tidak puas; 2 : netral; 3 : puas; 4 : sangat puas.
- Atribut Numerik bersifat kuantitatif. Dimana itu adalah nilai, yang diwakili dalam bilangan bulat atau nyata. Pada atribut numerik ini dapat berupa skala interval atau skala rasio. Skala interval diukur pada skala unit dengan ukuran yang sama. Contohnya atribut yang berskala interval adalah atribut suhu. Skala Rasio adalah atribut numerik dengan titik 0 yang melekat atau bawaan.
Algoritma klasifikasi yang dikembangkan dari pembelajaran mesin sering kali berbicara tentang atribut sebagai diskrit atau kontinu. Atribut diskrit memiliki kumpulan nilai yang terbatas atau tak terbatas, yang mungkin atau tidak direpresentasikan sebagai bilangan bulat.Â
Atribut warna rambut, tes Kesehatan, dan ukuran minuman masing-masing memiliki jumlah nilai yang tak terbatas, begitupun diskrit.Â