Lihat ke Halaman Asli

Auliya Rahman Asdar

Saya Merupakan Mahasiswa Jurusan Teknik Informatika Fakultas Teknik Universitas Halu Oleo

Classification Method: Basic Concepts

Diperbarui: 19 Oktober 2022   13:56

Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.

Dok. pribadi

Di artikel sebelumnya penulis telah sedikit menyinggung mengenai beberapa metode yang dapat digunakan untuk mengolah data. Adapun metode yang dapat digunakan antara lain Classfication, Association, Clustering dan lain-lain. Di artikel ini penulis akan membahas mengenai Metode Klasifikasi.

1. Definisi Klasifikasi

Klasifikasi adalah proses menemukan model (atau fungsi) yang menggambarkan dan membedakan kelas data atau konsep. Model diturunkan berdasarkan analisis himpunan data pelatihan (yaitu, objek data yang label kelasnya diketahui). Model yang digunakan untuk memprediksi label kelas objek yang label kelasnya tidak diketahui.

Klasifikasi adalah bentuk analisis data yang mengekstrak model yang menggambarkan kelas data penting. Model semacam itu, yang disebut pengklasifikasi, memprediksi label kelas kategorikal (diskrit, tidak berurutan). Untuk contoh, kita dapat membangun model klasifikasi untuk mengkategorikan aplikasi pinjaman bank sebagai baik aman atau berisiko. Analisis semacam itu dapat membantu memberi kami pemahaman yang lebih baik tentang data di besar. Banyak metode klasifikasi telah diusulkan oleh para peneliti dalam pembelajaran mesin, pengenalan pola, dan statistik. Sebagian besar algoritma adalah penghuni memori, biasanya dengan asumsi ukuran data yang kecil. 

Penelitian penambangan data baru-baru ini telah dibangun di atas pekerjaan seperti itu, mengembangkan klasifikasi skalabel dan teknik prediksi yang mampu menangani sejumlah besar data penduduk disk. Klasifikasi memiliki banyak aplikasi, termasuk deteksi penipuan, target pemasaran, prediksi kinerja, manufaktur, dan diagnosis medis.

"Bagaimana cara kerja klasifikasi?" Klasifikasi data adalah proses dua langkah, terdiri dari: langkah pembelajaran (di mana model klasifikasi dibangun) dan langkah klasifikasi (di mana model digunakan untuk memprediksi label kelas untuk data yang diberikan). Proses ditampilkan untuk data aplikasi pinjaman Gambar 8.1. (Data disederhanakan untuk tujuan ilustrasi. 

Pada kenyataannya, kita mungkin mengharapkan lebih banyak atribut untuk dipertimbangkan. Pada langkah pertama, sebuah classifier dibangun untuk menggambarkan sekumpulan kelas data yang telah ditentukan sebelumnya atau konsep. Ini adalah langkah pembelajaran (atau fase pelatihan), di mana algoritma klasifikasi membangun classifier dengan menganalisis atau "belajar dari" set pelatihan yang terdiri dari database tupel dan label kelas yang terkait. Sebuah tupel, X, diwakili oleh n-dimensi vektor atribut, X = (x1, x2,..., xn), menggambarkan n pengukuran yang dilakukan pada tuple dari n atribut database, masing-masing, A1, A2,..., An. 1 Setiap tupel, X, diasumsikan milik kelas yang telah ditentukan sebagaimana ditentukan oleh atribut database lain yang disebut kelas atribut label. Atribut label kelas bernilai diskrit dan tidak berurutan. Ini adalah kategoris (atau nominal) di mana setiap nilai berfungsi sebagai kategori atau kelas. Tuple individu membuat set pelatihan disebut sebagai tupel pelatihan dan diambil sampelnya secara acak dari database yang sedang dianalisis. Dalam konteks klasifikasi, tupel data dapat menjadi disebut sebagai sampel, contoh, contoh, titik data, atau objek.

Karena label kelas dari setiap tupel pelatihan disediakan, langkah ini juga dikenal sebagai pembelajaran yang diawasi (yaitu, pembelajaran pengklasifikasi "diawasi" dalam hal itu diberitahu ke kelas mana setiap tupel pelatihan berada). Ini kontras dengan pembelajaran tanpa pengawasan (atau pengelompokan), di mana label kelas dari setiap tupel pelatihan tidak diketahui, dan nomornya atau himpunan kelas yang akan dipelajari mungkin tidak diketahui sebelumnya. Misalnya, jika kita tidak memiliki data keputusan pinjaman yang tersedia untuk set pelatihan, kita dapat menggunakan pengelompokan untuk mencoba menentukan "kelompok tupel serupa," yang mungkin sesuai dengan kelompok risiko dalam pinjaman data aplikasi. Pengelompokan adalah topik Bab 10 dan 11. 

Langkah pertama dari proses klasifikasi ini juga dapat dilihat sebagai pembelajaran ping atau fungsi peta, y = f (X), yang dapat memprediksi label kelas terkait y dari tuple X yang diberikan. Dalam tampilan ini, kami ingin mempelajari pemetaan atau fungsi yang memisahkan kelas data. Biasanya pemetaan ini direpresentasikan dalam bentuk aturan klasifikasi, pohon keputusan, atau rumus matematika. Dalam contoh kita, pemetaan direpresentasikan sebagai klasifikasi aturan yang mengidentifikasi aplikasi pinjaman sebagai aman atau berisiko (Gambar 8.1a). Aturan dapat digunakan untuk mengkategorikan tupel data masa depan, serta memberikan wawasan yang lebih dalam tentang isi data. Mereka juga menyediakan representasi data terkompresi.

"Bagaimana dengan akurasi klasifikasi?" Pada langkah kedua (Gambar 8.1b), modelnya adalah digunakan untuk klasifikasi. Pertama, akurasi prediksi pengklasifikasi diperkirakan. Jika kita menggunakan set pelatihan untuk mengukur akurasi pengklasifikasi, perkiraan ini kemungkinan akan optimis, karena pengklasifikasi cenderung overfit data (yaitu, selama pembelajaran mungkin menggabungkan beberapa anomali tertentu dari data pelatihan yang tidak ada dalam kumpulan data umum secara keseluruhan). Oleh karena itu, satu set uji digunakan, terdiri dari tupel uji dan label kelas terkait. Mereka tidak bergantung pada tupel pelatihan, artinya mereka tidak digunakan untuk membangun classifier. 

Halaman Selanjutnya


BERI NILAI

Bagaimana reaksi Anda tentang artikel ini?

BERI KOMENTAR

Kirim

Konten Terkait


Video Pilihan

Terpopuler

Nilai Tertinggi

Feature Article

Terbaru

Headline