Analisis Sentimen Dukungan Online Pro-Palestina Di Platform Reddit Menggunakan Metode Random Forest Halaman 2

Pada tahapan ini dilakukan pelabelan terhadap data teks yang sudah diperoleh, data tersebut diberikan label sentimen positif, negatif, dan netral [6]. Labelling data diperoleh dengan melihat kata yang berada dalam teks. Jadi, data unggahan akan dibedakan menjaditiga label tersebut sesuai dengan pembagian berdasarkan kata setiap unggahan.

Gambar 1. Tahapan Labelling

- Pre-Processing

Pre-Processing data adalah proses yang dilakukan pada data mentah. Tujuan dari Pre-Procesing data adalah untuk membersihkan, mengubah format, dan menyesuaikan data agar sesuai dengan kebutuhan analisis atau pemodelan [7]. Pre-Processing merupakan tahap penting dalam pengelolaan data, terutama dalam kerangka analisis data dan teks [8]. Adapun tahapan pre-processing datayang bisa dilihat di Gambar 2 yaitu flowchart pada penelitian ini.

Gambar 2. Flowchart

Terdapat lima tahapan dalam pre-processing yaitu cleaning, case folding, tokenizing, stopword removal, dan stemming. Cleaning adalah proses meghapus atribut yang tidak memiliki pengaruh signifikan dalam proses klasifikasi [8]. Case Folding adalah proses tersebut memanfaatkan fitur transform cases yang bertujuan untuk menyeragamkan seluruh teks kedalam huruf kecil semua (lowercase) [9]. Tokenizing adalah proses memecah kalimat utuh menjadi unit-unit kecil yang lebih terstruktur [8]. Stopword Removal adalah proses penyaringan, memilih kata-kata penting dari hasil yang ditandai, yaitu kata-kata mana yang digunakan untuk mempresentasikan dokumen [10]. Stemming adalah mengubah kata menjadi kata dasarnya seperti kata “ditandai” menjadi “tanda”, “dibawa” menjadi “bawa” [7].

- TF-IDF

Data yang sudah melewati tahap pre-processing tersebut harus berbentuk numerik agar bisa masuk kedalam proses klasifikasi. Data tersebut bisa diubah bentuknya menjadi numerik menggunakan metode pembobotan TF-IDF [11]. Nilai TF-IDF dari sebuah kata merupakan kombinasi dar nilai tf dan nilai idf dalam perhitungan bobot [12]. TF (Term Frequency) adalah frekuensi istilah dalam sebuah dokumen, istilah (term) tersebut bisa berupa kata maupun prasa [13]. Sedangkan IDF (Invers Document Frequency) merupakan kebalikan dari dokumen yang mengandung istilah (term) tersebut [11]. Berikut merupakan persamaan TF-IDF bisa dilihat pada persamaan 1 dan persamaan 2.

https://dltsierra.medium.com/algoritma-tf-idf-633e17d10a80

Keterangan :

D : Jumlah unggahan yang ada dalam data training

DF : Jumlah unggahan yang memiliki kata tersebut

tf : term frequency/kemunculan kata pada unggahan

HALAMAN :

LIHAT SEMUA

Mohon tunggu...

Lihat Ilmu Alam & Tekno Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

Analisis Sentimen Dukungan Online Pro-Palestina Di Platform Reddit Menggunakan Metode Random Forest

- Pre-Processing

- TF-IDF

data

hasil