Mohon tunggu...
Yunda Puji Lestari
Yunda Puji Lestari Mohon Tunggu... Freelancer - Mahasiswi IT

Work, work and work

Selanjutnya

Tutup

Ilmu Alam & Tekno

Mengenal Komponen dalam Proses Data Mining

28 September 2022   13:56 Diperbarui: 28 September 2022   14:07 2277
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Rumus Manhattan Distance (Source : https://www.turing.com/kb/how-to-decide-perfect-distance-metric-for-machine-learning-model)

Deskripsi Statistik Dasar Data

Representasi statistik dasar data dapat di identifikasi menggunakan properti data. Pada dasarnya pendekatan statistik ini dilakukan untuk mendapatkan beberapa properti dari data untuk mengamati apa yang ada didalam data tersebut. Untuk melakukan pendekatan ini  diperlukan konsep yang diuraikan sebagai berikut.

1. Mengukur central tendency yaitu mean, median dan modus, dimana :

  • Mean adalah metode pengukuran numerik yang paling umum dan efektif untuk menghitung nilai rata-rata data.
  • Median adalah metode pengukuran numerik untuk mencari titik tengah data atau pusat data. Saat menghitung median kumpulan data harus terlebih dahulu di urutkan dari yang terkecil ke yang terbesar.  
  • Modus adalah metode pengukuran numerik untuk mencari nilai yang paling sering muncul dalam suatu data.

Mengukur Central Tendency (Source : Data Mining Concepts & Techniques Chapter 2 oleh Jiawei Han, Micheline Kamber, and Jian Pei)
Mengukur Central Tendency (Source : Data Mining Concepts & Techniques Chapter 2 oleh Jiawei Han, Micheline Kamber, and Jian Pei)

2. Mengukur dispersi data/mengukur penyebaran data dengan menghitung :

  • Range adalah selisih nilai data terbesar dan terkecil.
  • Quantile/kuantil adalah set data yang berurut dan mempunyai ukuran yang sama.
  • Quartile/kuartil adalah rumus membagi data menjadi seperempat dari distribusi data.
  • Percentile/persentil adalah salah satu metode untuk membagi data menjadi 100 sama banyak.
  • Inter-quartile range adalah selisih dari persentil ke-75 dan persentil ke-25 atau IQR = Q3 - Q1.
  • Five number summary adalah set ringkasan deskriptif yang menyediakan informasi tentang dataset yang terdiri dari nilai data minimum, kuartil 1 (Q1), median, kuartil 3 (Q3) dan nilai data maximum. 
  • Variance/varian adalah ukuran untuk menghitung tingkat persebaran titik-titik data dalam sampel kumpulan data.
  • Standard deviation adalah akar kuadrat dari varian.

Dispersi Data (Source : Data Mining Concepts & Techniques Chapter 2 oleh Jiawei Han, Micheline Kamber, and Jian Pei)
Dispersi Data (Source : Data Mining Concepts & Techniques Chapter 2 oleh Jiawei Han, Micheline Kamber, and Jian Pei)

Visualisasi Data

Dikutip dari buku The Visualization Toolkit, 2 nd edition. 1998 oleh Schroeder et al.  Visualisasi data adalah mengubah data menjadi image/hambar yang secara efektif merepresentasikan informasi mengenai data tersebut.  Visualisasi sangat penting dilakukan untuk data exploration, sebagai alat untuk melakukan verifikasi dan yang terakhir visualisasi data digunakan untuk mengkomunikasikan hasil. Ada beberapa kategori metode untuk melakukan visualisasi data menurut buku Data Mining Concept & Techniques chapter 2, diantaranya :

1. Pixel-oriented visualization techniques

2. Geometric Projection visualization techniques

3. Icon-based visualization techniques

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
Mohon tunggu...

Lihat Konten Ilmu Alam & Tekno Selengkapnya
Lihat Ilmu Alam & Tekno Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun