1. Pendahuluan
Kemajuan teknologi yang pesat saat ini memberikan kemudahan bagi berbagai lapisan masyarakat, organisasi, dan perusahaan dalam menangani beragam permasalahan. Perkembangan terus-menerus dalam teknologi memungkinkan pengumpulan data dalam jumlah besar, yang memiliki potensi untuk menghasilkan informasi bermanfaat [1]. Banyaknya jumlah pengguna aktif internet saat ini, berarti jumlah data yang dapat dihasilkan juga sangat besar (big data). Pemanfaatan teknologi big data dapat membantu mengelola data kompleks dalam jumlah besar, sehingga data yang diolah dapat memberikan informasi yang bermanfaat. [2].
Sebagai platform yang telah beroperasi sejak tahun 2005, Reddit merupakan salah satu platform dengan jumlah data yang cukup besar. Pengguna Reddit lebih dari 50 juta pengguna aktif setiap hari dan lebih dari 100.000 komunitas topik aktif yang disebut “subreddit” [3]. Mengingat aksesbilitas dan popularitas Reddit serta kemampuan mengumpulkan data berkualitas tinggi, semakin banyak penelitian yang menggunakan Reddit sebagai sumber data dalam dekade terakhir. Studi-studi ini meggunakan berbagai jenis data, termasuk konten asli, komentar, metadata, tautan atau media, informasi upvoting/downvoting, karakteristik subreddit, serta survei dengan pengguna [3].
Seperti yang diketahui, perbincangan tentang topik dukung pro palestina ini sedang marak-maraknya. Banyak masyarakat yang menyuarkan dukungannya secara online salah satunya melalui platform Reddit. Maka dari itu dilakukannya analisis sentimen dengan mengolah data unggahan. Namun dengan banyaknya jumlah data unggahan tidak memungkinkan untuk menghitung satu persatu maka digunakanlah metode Random Forest untuk mengolah banyaknya unggahan tersebut apakah dikategorikan sebagai unggahan positif, negatif atau netral.
Beberapa kajian penelitian sebelumnya yang dianggap relevan untuk penelitian ini yaitu penelitian dari Tasya Auliya Ulul Azmi, Lutfi Hakim, Dian Candra Rini Novitasari, Wika Dianita Utami yang berjudul “Application Random Forest Method for Sentiment Analysis in Jamsostek Mobile Riview”. Pada penelitian ini dataset yang digunakan untuk analisis sentimen ini adalah data review aplikasi Jamsostek. Hasil dari penelitian tersebut menunjukkan 93% memiliki tanggapan yang positif [1].
Peneliatian dari Hafiz Irsyad dan Akhsani Taqwiym yang berjudul “Sentimen Analisis Masyarakat Terhadap Rakyat Palestina dengan Klasifikasi Naïve Bayes”. Pada penelitian ini berdasarkan data tweet maupun retweet dari Tweeter. Mendapatkan hasil sentiment positif 56%, sentiment negatif 11%, dan sentiment netral 33% dengan akurasi 75% [4].
Penelitian analisis sentimen dukung online pro palestina di platform Reddit menggunakan metode Random Forest ini diharapkan dapat membantu memberikan informasi tentang sentimen pada unggahan yang diunggah oleh pengguna Reddit di platform Reddit.
2. Metode/Perancangan
Data pada penelitian ini diambil dari data unggahan pengguna di platform Reddit. Data unggahan yang diambil adalah data mengenai unggahan tentang “Dukung Pro Palestina”. Metode yang akan digunakan adalah Random Forest untuk mengetahui hasil akurasi dalam analisis sentimen pada unggahan pengguna platform Reddit. Berikut tahapan dari penelitian ini.
- Web Scraping
Pengumpulan data unggahan dari platform Reddit menggunakan proses web scraping dari Reddit yang nantinya akan menampilkan unggahan-unggahan seluruh pengguna yang membahas pro palestina menggunaka library praw yang kemudian disimpan dalam bentuk csv.
- Dataset
Dataset adalah data yang dihasilkan dari proses web scraping berbentuk csv. Data inilah yang diproses ke langkah selanjutnya.
- Lexicon
Lexicon digunakan dalam penelitian sebagai klasifikasi kata maupun pengklasifikasian. Dokumen atau data yang berupa kata dalam sebuah kalimat akan dibandingkan secara langsung dengan kamus kata yang tersedia dalam Lexicon menjadi salah satu kelebihan dari Lexicon [5]. Kamus kata terdiri dari dua kamus yaitu kamus kumpulan kata sentimen positif dan sentimen negatif. Vader sentiment adalah metode analisis yang digunakan oleh lexicon based. Hasil dari vader berupa 3 kelas yaitu positif, netral, dan negatif [1]. Dari lexicon ini dihasilkan nilai compound, nilai ini digunakan sebagai satuan standar untuk mengklasifikasikan sebuah kalimat dengan ketentuan positif untuk compound ≥ 0.05, negatif untuk compund ≤ -0,05 dan netral untuk -0.05 < compound < 0.05. Proses ini yang akan mendasari proses selanjutnya yaitu labelling, karena nilai compound menjadi penentu suatu kalimat dinilai positif, negatif dan netral.