Pada tahapan ini dilakukan pelabelan terhadap data teks yang sudah diperoleh, data tersebut diberikan label sentimen positif, negatif, dan netral [6]. Labelling data diperoleh dengan melihat kata yang berada dalam teks. Jadi, data unggahan akan dibedakan menjaditiga label tersebut sesuai dengan pembagian berdasarkan kata setiap unggahan.
- Pre-Processing
Pre-Processing data adalah proses yang dilakukan pada data mentah. Tujuan dari Pre-Procesing data adalah untuk membersihkan, mengubah format, dan menyesuaikan data agar sesuai dengan kebutuhan analisis atau pemodelan [7]. Pre-Processing merupakan tahap penting dalam pengelolaan data, terutama dalam kerangka analisis data dan teks [8]. Adapun tahapan pre-processing datayang bisa dilihat di Gambar 2 yaitu flowchart pada penelitian ini.
Terdapat lima tahapan dalam pre-processing yaitu cleaning, case folding, tokenizing, stopword removal, dan stemming. Cleaning adalah proses meghapus atribut yang tidak memiliki pengaruh signifikan dalam proses klasifikasi [8]. Case Folding adalah proses tersebut memanfaatkan fitur transform cases yang bertujuan untuk menyeragamkan seluruh teks kedalam huruf kecil semua (lowercase) [9]. Tokenizing adalah proses memecah kalimat utuh menjadi unit-unit kecil yang lebih terstruktur [8]. Stopword Removal adalah proses penyaringan, memilih kata-kata penting dari hasil yang ditandai, yaitu kata-kata mana yang digunakan untuk mempresentasikan dokumen [10]. Stemming adalah mengubah kata menjadi kata dasarnya seperti kata “ditandai” menjadi “tanda”, “dibawa” menjadi “bawa” [7].
- TF-IDF
Data yang sudah melewati tahap pre-processing tersebut harus berbentuk numerik agar bisa masuk kedalam proses klasifikasi. Data tersebut bisa diubah bentuknya menjadi numerik menggunakan metode pembobotan TF-IDF [11]. Nilai TF-IDF dari sebuah kata merupakan kombinasi dar nilai tf dan nilai idf dalam perhitungan bobot [12]. TF (Term Frequency) adalah frekuensi istilah dalam sebuah dokumen, istilah (term) tersebut bisa berupa kata maupun prasa [13]. Sedangkan IDF (Invers Document Frequency) merupakan kebalikan dari dokumen yang mengandung istilah (term) tersebut [11]. Berikut merupakan persamaan TF-IDF bisa dilihat pada persamaan 1 dan persamaan 2.
Keterangan :
D : Jumlah unggahan yang ada dalam data training
DF : Jumlah unggahan yang memiliki kata tersebut
tf : term frequency/kemunculan kata pada unggahan