Didalam Data Mining, terdapat konsep dan teknik yang perlu kita ketahui. Konsep dan teknik ini sangat berguna dalam penerapan sebuah data mining. Akan tetapi,sebelum mengenal konsep dan teknik tersebut kita terlebih dahulu harus mengenal data yang kita miliki.
Oleh karena itu, pada artikel kali ini kita akan membahas mengenai pengenalan pada data yang kita miliki agar kedepannya kita dapat memahami mengenai konsep dan teknik didalam  data mining.
1. Objek Data dan Jenis Atribut
Data sets (kumpulan data) merupakan sebuah kumpulan data yang berasal dari informasi-informasi pada masa sebelumnya atau masa lalu yang siap untuk dikelola menjadi informasi baru. Pada dasarnya, data sets terdiri dari objek data yang mewakili suatu entitas.Â
Misalnya pada suatu database penjualan maka objek didalamnya terdiri dari pelanggan ,item toko, dan penjualan. Contoh lainnya pada database medis dengan objek pasien dan perawatan, dan pada database universitas dengan objek didalamnya yaitu profesor, mahasiswa dan mata kuliah.
Objek data juga biasa disebut sebagai sampel, examples, instances, data points, objects, dan tuples. Sebuah objek data dapat dijelaskan oleh atribut. Dimana didalam baris database berisi objek dari data sedangkan kolom berisi atribut.
Apa itu atribut ?  Artibut adalah sebuah bidang data yang  mewakili karakteristik atau fitur dari objek data, misalnya ID pelanggan, nama dan alamat.  Atribut, dimensi, feature, dan variabel merujuk pada maksud yang sama dan sering digunakan secara bergantian.Â
2. Visualisasi data
Mengapa kita harus memvisualisasi data ?
Visualisasi adalah konversi data ke dalam format kedalam visual atau tabel sehingga karakteristik dari data dan relasi diantara item data atau atribut dapat dianalisis atau dilaporkan. Visualisasi data diperlukan untuk membuat penerima data memahami dengan baik hasil dari pengolahan data. Terutama ketika data yang akan diolah berjumlah sangat banyak. Pengolahan data dengan jumlah yang sangat banyak dikenal dengan data mining.
Berikut adalah beberapa alasan mengapa pentingnya memvisualisasi data.
- Memberikan wawasan tentang ruang informasi dengan memetakan data ke primitif garis.
- Memberikan gambaran kualitatif tentang kumpulan data besar.
- Membantu menemukan pola, tren, stuktur, penyimpangan dan hubungan antat data.
- Membantu menemukan wilayah yang menarik dan parameter yang sesuai untuk analisis kuantitatif lebih lanjut.
- Memberikan bukti visual representasi komputer yang diturunkan
Berikut adalah beberapa kategori metode visualisasi yang dapat digunakan dalam memvisualisasi data :
- Teknik visualisasi berorientasi pixel.
- Teknik visualisasi proyeksi geometris.
- Teknik visualisasi berbasi ikon.
- Teknik visualisasi hierarkis.
- Memvisualisasikan data dan hubungan yang kompleks.
3. Mengukur Kesamaan dan Ketidaksamaan Data
Similarity (kesamaan) menjelaskan mengenai ukuran numerik tentang seberapa mirip dua objek data dan seringkali jatuh dalam kisaran [0,1]. Pada similarity, nilai akan cenderung lebih tinggi ketika objek yang diukur lebih mirip atau keduanya hampir mendekati kesamaan.Â
Dissimilarity (ketidaksamaan) adalah ukuran numerik tentang seberapa berbeda dua objek data dengan ketidaksamaan minimum yang dimiliki seringkali 0 atau tidak ada dan batas atasnya bervariasi. Ketika objek lebih mirip, nilai yang terdapat pada dissimilarity akan lebih rendah. Contoh dari dissimilarity adalah jarak.
Berbeda dari similarity dan dissimilarity, proximity atau biasa disebut kedekatan  lebih mengacu pada kesamaan atau ketidaksamaan yang berarti proximity berada ditengah-tengah antara similarity dan dissimilarity.
4. Knowledge Discovery in Database
Knowledge Discovery in Database Process (KDD) adalah proses dari menggunakan metode data mining untuk mencari informasi-informasi yang berharga, pola yang ada di dalam data, yang melibatkan algoritma untuk mengidentifikasi pola pada data. Berikut adalah tahapan serta penjelasan menegenai proses KDD :
- Data Cleansing adalah proses dimana sebuah data diolah lalu dilakukan pemilihan data yang dianggap bisa dipakai.
- Data Integration adalah proses penggabungan data yang dianggap berulang dan akan digabungkan menjadi satu.
- Selection adalah proses menyeleksi atau emilihan data yang dianggap relevan terhadap analisis.
- Data Trasnformation adalah proses mentransformasikan data yang telah terpilih ke dalam bentuk mining procedure.
- Data Mining adalah proses dimana dilakukannya beragam teknik untuk mengekstrak pola-pola yang potensial menghasilkan data berguna yang dibutuhkan.
- Pattern Evolution adalah proses dimana pola-pola yang telah diidentifikasi berdasarkan measure yang diberikan.
- Knowledge Presentation adalah proses yang paling akhir dari proses KDD, dimana data-data yang sudah diproses akan divisualisasikan agar lebih mudah dipahami oleh pengguna dan diharapkan bisa diambil tindakan berdasarkan analisis
Untuk pemahaman lebih mendalam tentang materi diatas dapat dipelajarari dari sumber berikut
TERIMA KASIH TELAH MEMBACA
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H