Selanjutnya tahap preprocessing. Hasil pengumpulan sampel teksmtunggal untuk prapemrosesan ditunjukkan di bawah ini. Dimulai dengan temuan scrape, kami melanjutkan dengan case folding, tokenisasi, pemfilteran, dan stemming
       Pada tahap klasifikasi, dilakukan pembuatan sebuah model machine learning dengan menggunakan data training dan data testing dari seluruh dataset secara acak untuk melakukan cross-validation dan menghasilkan nilai prediksi untukm akurasinya. Proses ini melibatkan algoritma Nave Bayes, adalah salah satu dari metode klasifikasi yangmmumum digunakan dalam analisis sentimen.
Gambaran dari hasil tahapan klasifikasi menggunakan script dari algoritma Nave Bayes dapat mencakup langkah-langkah seperti:
- Pembagian data menjadi data sebuah training dan data testingasecara acak.
- Pelatihan model Nave Bayes menggunakanhdataatraining.
- Pengujian model pada data testing untuk menghasilkan prediksi sentimen.
- Perhitungan metriklevaluasi seperti akurasi, presisi, recall, danmf1-score untukmmengevaluasinkinerjalmodel.
Script yang digunakan mungkin mencakup implementasi algoritma Nave Bayes beserta proses pengolahan data dan evaluasi model. Dengan demikian, penelitian dapat mendapatkan pemahamanmyang lebihmbaik tentang efektivitas model klasifikasi dalam memprediksi sentimen ulasan pengguna aplikasi GetContact.
Berdasarkan hasil penelitian, ditemukan beberapa langkah yang dilakukan dalam proses klasifikasi ulasan pengguna aplikasi Getcontact menggunakan Naive Bayes Classifier. Pertama, terdapat tahapan pengumpulan dan pemilihan data teks yang relevan (data selection). Kemudian, data tersebut menjalani proses preprocessing yang melibatkan lima langkah, termasuk pembersihan data dari karakter tidak relevan, pengubahan teks menjadi huruf kecil, dan lain sebagainya. Setelah preprocessing, dilakukan transformasi data dengan menggunakan seleksi fitur TF-IDF untuk menentukan bobot kata-kata yang relevan. Selanjutnya, data tekskdiklasifikasikan ke dalammmsentimenmmpositifmmdanmnegatif menggunakanmmmNaivemBayesmClassifier, dengan pembagian data latih dan uji sebelumnya. Evaluasi melibatkan penghitungan nilai akurasi, presisi, recall, dan f-measure dari matriks konfusi danmmembandingkanmhasil klasifikasi menggunakan pemilihan fiturmTF-IDF.
Evaluasi memberikan hasil terbaik, dengan klasifikasiddmenggunakan Naive Bayes Classifierdddenganffpemilihan fitur TF-IDF mencapai akurasi 78%, presisi 79%, recall 78%, dan f1-score 78%. Selamaeprosedur pengujian, 124 data pengujian dipilih secara acak dari total 1000 titik data yang tersedia.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H