Program Tabungan Perumahan Rakyat (TAPERA) merupakan inisiatif pemerintah Indonesia untuk mengatasi masalah perumahan bagi masyarakat berpenghasilan rendah dan menengah (De, 2024). Namun, pelaksanaan program ini memicu beragam opini di kalangan masyarakat, terutama di platform media sosial. Untuk memahami sentimen publik terhadap TAPERA, diperlukan analisis yang sistematis dengan menggunakan teknik pemrosesan bahasa alami (NLP) dan Machine Learning. Analisis sentimen memungkinkan identifikasi dan pengelompokan opini publik menjadi kategori positif, netral, atau negatif (Ardras & Voutama, 2023). Penelitian ini menggunakan metode CRISP-DM dengan model Support Vector Machine (SVM) dan Random Forest untuk mengklasifikasikan sentimen publik terhadap program TAPERA secara otomatis.
Metodologi
Metode CRISP-DM
CRISP-DM merupakan pendekatan analisis data yang terdiri dari enam tahap utama:
Business Understanding – Mengidentifikasi tujuan bisnis, yaitu memahami respons masyarakat terhadap program TAPERA.
Data Understanding – Mengumpulkan data dari media sosial X menggunakan teknik crawling dengan Python dan Tweet-harvest.
Data Preparation – Melakukan pembersihan data, termasuk tokenisasi, penghapusan tanda baca, stopword removal, stemming, dan pemberian bobot kata dengan TF-IDF.
Modeling – Memilih algoritma Machine Learning, yaitu SVM dan Random Forest, serta membangun model klasifikasi sentimen.
Evaluation – Mengevaluasi performa model dengan menggunakan Confusion Matrix.
Deployment – Menyajikan hasil analisis dalam bentuk visualisasi data untuk memberikan wawasan yang lebih mudah dipahami.
Pengumpulan dan Persiapan Data