Mohon tunggu...
Guntur Syarifuddin Putra
Guntur Syarifuddin Putra Mohon Tunggu... Pelajar Sekolah - Pelajar/Mahasiswa

saya adalah seorang mahasiswa dari UIN Walisongo Semarang, Saya memiliki semangat yang tinggi dalam menghadapi tantangan. Hobi saya adalah bermain bulu tangkis dan memancing

Selanjutnya

Tutup

Ilmu Alam & Tekno

Analisis Sentimen Dukungan Online Pro-Palestina Di Platform Reddit Menggunakan Metode Random Forest

14 Juni 2024   15:35 Diperbarui: 14 Juni 2024   15:48 359
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
https://dltsierra.medium.com/algoritma-tf-idf-633e17d10a80

Pada tahapan ini dilakukan pelabelan terhadap data teks yang sudah diperoleh, data tersebut diberikan label sentimen positif, negatif, dan netral [6]. Labelling data diperoleh dengan melihat kata yang berada dalam teks. Jadi, data unggahan akan dibedakan menjaditiga label tersebut sesuai dengan pembagian berdasarkan kata setiap unggahan.

Gambar 1. Tahapan Labelling
Gambar 1. Tahapan Labelling

- Pre-Processing

Pre-Processing  data adalah proses yang dilakukan pada data mentah. Tujuan dari Pre-Procesing  data adalah untuk membersihkan, mengubah format, dan menyesuaikan data agar sesuai dengan kebutuhan analisis atau pemodelan [7]. Pre-Processing merupakan tahap penting dalam pengelolaan data, terutama dalam kerangka analisis data dan teks [8]. Adapun tahapan  pre-processing datayang bisa dilihat di Gambar 2 yaitu  flowchart pada penelitian ini.

Gambar 2. Flowchart
Gambar 2. Flowchart

Terdapat lima tahapan dalam pre-processing yaitu cleaning, case folding, tokenizing, stopword removal, dan stemming. Cleaning adalah proses meghapus atribut yang tidak memiliki pengaruh signifikan dalam proses klasifikasi [8]. Case Folding adalah proses tersebut memanfaatkan fitur transform cases  yang bertujuan untuk menyeragamkan seluruh teks kedalam huruf kecil semua (lowercase) [9]. Tokenizing adalah proses memecah kalimat utuh menjadi unit-unit kecil yang lebih terstruktur [8]. Stopword Removal adalah proses penyaringan, memilih kata-kata penting dari hasil yang ditandai, yaitu kata-kata mana yang digunakan untuk mempresentasikan dokumen [10]. Stemming  adalah mengubah kata menjadi kata dasarnya seperti kata “ditandai” menjadi “tanda”, “dibawa” menjadi “bawa” [7].

- TF-IDF

Data yang sudah melewati tahap ­pre-processing tersebut harus berbentuk numerik agar bisa masuk kedalam proses klasifikasi. Data tersebut bisa diubah bentuknya menjadi numerik menggunakan metode pembobotan TF-IDF [11]. Nilai TF-IDF dari sebuah kata merupakan kombinasi dar nilai tf  dan nilai idf dalam perhitungan bobot [12]. TF (Term Frequency) adalah frekuensi istilah dalam sebuah dokumen, istilah (term) tersebut bisa berupa kata maupun prasa [13]. Sedangkan IDF  (Invers Document Frequency) merupakan kebalikan dari dokumen yang mengandung istilah (term) tersebut [11]. Berikut merupakan persamaan TF-IDF bisa dilihat pada persamaan 1 dan persamaan 2.

https://dltsierra.medium.com/algoritma-tf-idf-633e17d10a80
https://dltsierra.medium.com/algoritma-tf-idf-633e17d10a80

Keterangan :

D         : Jumlah unggahan yang ada dalam data training

DF       : Jumlah unggahan yang memiliki kata tersebut

tf          : term frequency/kemunculan kata pada unggahan

HALAMAN :
Mohon tunggu...

Lihat Konten Ilmu Alam & Tekno Selengkapnya
Lihat Ilmu Alam & Tekno Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun