Mohon tunggu...
Auliya Rahman Asdar
Auliya Rahman Asdar Mohon Tunggu... Mahasiswa - Saya Merupakan Mahasiswa Jurusan Teknik Informatika Fakultas Teknik Universitas Halu Oleo

E1E120025

Selanjutnya

Tutup

Ilmu Alam & Tekno

Knowledge Discovery (KDD) Process and Getting to Know Your Data

27 September 2022   11:45 Diperbarui: 27 September 2022   12:09 291
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Ilmu Alam dan Teknologi. Sumber ilustrasi: PEXELS/Anthony

A. Knowledege Discovery (KDD)

Data mining adalah suatu proses pengumpulan dan pengolahan data yang bertujuan untukk di ekstrak agar dapat dijadikan sebagai informasi dan pengetahuan.

Dalam data mining terdapat tahap-tahap yang harus dilakukan agar dapat memperoleh data mining. Adapun tahap-tahapan adalah sebagai berikut.

1. Data Integration

Data Integration adalah proses menggabungkan beberapa data yang telah diperoleh yang kemudian digabungkan didalam suatu tempat yang disebut data warehouse.

Data Warehouse adalah gudang informasi yang dikumpulkan dari berbagai sumber, disimpan di bawah satu kesatuan skema, dan biasanya berada di satu situs.

2. Data Cleaning 

Data Cleaning adalah proses membersihkan data-data yang tidak lengkap atau cacat dalam proses penginputan. dalam tahap ini data akan kembali di konfirmasi mengenai kebenaran dan kelengkapannya untuk memenuhi ketentuan data yang dibutuhkan agar dapat di olah ke tahap selanjutnya.

Tahap-tahap yang dijelaskan sebelumnya biasa disebut sebagai tahap data preprocessing.

3. Data Selection

Data Selection adalah proses mengeksekusi atribut data yang dibutuhkan.

4. Data Transformation

Data Transformation adalah proses di mana data diubah dan dikonsolidasikan ke dalam bentuk sesuai untuk penambangan dengan melakukan operasi ringkasan atau agregasi.

5. Data Mining

tahap ini merupakan tahap penting dimana metode Clasificcation, Clustering, dan Association akan diterapkan untuk mengekstraksi pola. data.

6.Pattern Evaluation

Pattern Evaluation adalah proses untuk mengidentifikasi pola yang benar-benar menarik yang mewakili pengetahuan berdasarkan ukuran ketertarikan.


B. Data Objects and Attribute Types 

Data Object adalah Kumpulan data terdiri dari objek data. Objek data mewakili entitas.  Objek data juga bisa disebut sebagai sampel, contoh, titik data, atau objek. Jika objek datanya adalah disimpan dalam database, mereka adalah tupel data. Artinya, baris database sesuai dengan objek data, dan kolom sesuai dengan atribut. Di bagian ini, kami mendefinisikan atribut dan melihat berbagai jenis atribut.

Attribute Data adalah bidang data, yang mewakili karakteristik atau fitur dari objek data.  atribut kata benda, dimensi, fitur, dan variabel sering digunakan secara bergantian dalam literatur. Istilah dimensi biasanya digunakan dalam data warehousing. literatur Machine Learning  cenderung menggunakan istilah fitur, sedangkan ahli statistik lebih memilih istilah variabel. Data Mining dan Professional Database biasanya menggunakan istilah atribut. Atribut yang menjelaskan objek pelanggan dapat mencakup, misalnya, ID pelanggan, Nama dan alamat. Nilai yang diamati untuk atribut tertentu dikenal sebagai observasi. Satu set atribut yang digunakan untuk menggambarkan objek tertentu disebut vektor atribut (atau vektor fitur). Distribusi data yang melibatkan satu atribut (atau variabel) disebut univariat. Distribusi bivariat melibatkan dua atribut, dan seterusnya.

Adapun Jenis-jenis attribute data adalah sebagai berikut.

1. Nominal Attribute

Nominal berarti “berkaitan dengan nama”. Nilai dari nominal attribute  adalah simbol atau nama-nama benda. Setiap nilai mewakili beberapa jenis kategori, kode, atau keadaan, dan atribut nominal juga disebut sebagai kategorikal. Nilai-nilai tidak memiliki arti apapun memesan. Dalam ilmu komputer, nilai-nilai juga dikenal sebagai enumerasi.

2. Binary Attribute

Binary Attribute adalah atribut nominal dengan hanya dua kategori atau status: 0 atau 1, di mana 0 biasanya berarti bahwa atribut tidak ada, dan 1 berarti ada. Biner atribut disebut sebagai Boolean jika dua negara sesuai dengan benar dan salah.

3. Ordinal Attribute

Ordinal Atribute adalah atribut dengan kemungkinan nilai yang memiliki urutan yang berarti atau peringkat di antara mereka, tetapi besarnya antara nilai-nilai berturut-turut tidak diketahui.

4. Numeric Attribute

Numeric Attribute bersifat kuantitatif; yaitu, itu adalah kuantitas yang dapat diukur, diwakili dalam bilangan bulat atau nilai nyata. Numeric Attribute dapat berupa skala interval atau skala rasio.

a. Scaled-Interval Attribute  atau Atribut berskala interval diukur pada skala unit dengan ukuran yang sama. Nilai dari atribut berskala interval memiliki keteraturan dan dapat bernilai positif, 0, atau negatif. Jadi, selain itu untuk memberikan peringkat nilai, atribut tersebut memungkinkan kita untuk membandingkan dan mengukur perbedaan antara nilai.

b. Ratio-Scaled Attribute atau Atribut berskala rasio adalah atribut numerik dengan titik nol yang melekat. Artinya, jika pengukuran adalah skala rasio, kita dapat berbicara tentang nilai sebagai kelipatan (atau rasio) dari nilai lain. Selain itu, nilainya diurutkan, dan kita juga dapat menghitung perbedaan antara nilai, serta mean, median, dan modus.

5. Discrete versus Continuous Attributes

Discrate Attribute memiliki kumpulan nilai yang terbatas atau tak terbatas yang dapat dihitung, yang mungkin atau mungkin tidak direpresentasikan sebagai bilangan bulat. Jika suatu atribut tidak diskrit maka disebut sebagai Continuous Attribute.

Data Visualization

Data Visualization atau visualisasi data adalah rangkaian proses menampilkan data atau informasi dalam bentuk yang mudah dipahami, seperti grafik, angka, bagan, dan lain sebagainya. Visualisasi data bertujuan untuk berkomunikasi data secara jelas dan efektif melalui representasi grafis.

Similarity dan Dissimilarity

Simmilarity merupakan perbandingan objek dimana ditinjau dari ukuran numerik seberapa mirip dua objek data. Dissimilarity sebaliknya yaitu perbandingan objek yang ditinjau Ukuran numerik tentang seberapa berbeda dua objek data tersebut. Similaraty dan dissimilarity dapat dianalogikan menggunakan konsep jarak, dimana semakin tinggi nilai jarak antara kedua objek yang ditinjau maka nilai kemiripan suatu data semakin dekat atau biasa nilai kemiripan sama dengan 1, sedangkan semakin jauh nilai jarak antara kedua objek yang ditinjau maka semakin dekat nilai ketidakmiripan  atau bernilai 0.

Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
Mohon tunggu...

Lihat Konten Ilmu Alam & Tekno Selengkapnya
Lihat Ilmu Alam & Tekno Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun