Inovasi Community Topic dalam Jaringan Keterhubungan Kata untuk Pemodelan Topik
Dalam era digital yang semakin kompleks, kebutuhan untuk mengidentifikasi topik secara efisien dan menyusun hierarki informasi dari data teks semakin mendesak. Artikel "Uncovering Flat and Hierarchical Topics by Community Discovery on Word Co-occurrence Network" yang ditulis oleh Eric Austin, Shraddha Makwana, Amine Trabelsi, Christine Largeron, dan Osmar R. Zaane (2024) di jurnal Data Science and Engineering, menampilkan pendekatan inovatif dalam pemodelan topik menggunakan algoritma Community Topic (CT). Metode ini secara efektif memanfaatkan jaringan keterhubungan antar kata (word co-occurrence network) untuk mendeteksi topik dengan struktur yang tidak hanya datar tetapi juga hierarkis. Pendekatan yang dilakukan para penulis menunjukkan hasil yang signifikan, di mana Community Topic (CT) menghasilkan topik yang lebih koheren dan relevan dengan berbagai dataset, bahkan mendukung multibahasa seperti Inggris, Prancis, dan Spanyol.
Community Topic mengatasi beberapa kendala utama dari algoritma topik tradisional seperti Latent Dirichlet Allocation (LDA), yang kurang efisien untuk teks pendek dan tidak mampu menghasilkan struktur hierarki. Dalam studi ini, model CT mencatat peningkatan koherensi dengan nilai Coherence (CV) sebesar 0.7 pada dataset BBC dan 0.77 pada 20NewsGroups, jauh di atas LDA yang hanya mencapai 0.46 pada BBC. Efektivitas CT juga terlihat dari waktu prosesnya yang rata-rata 3 detik, dibandingkan BERTopic yang memerlukan lebih dari 900 detik. Data ini mencerminkan potensi besar CT sebagai alat pemodelan topik dalam skala besar dan lintas bahasa.Â
Metode Community Topic (CT) dalam artikel ini menawarkan pendekatan yang sangat berbeda dalam pemodelan topik dengan menekankan pada jaringan keterhubungan kata daripada hanya mengandalkan metode probabilistik seperti LDA. Metode ini memanfaatkan jaringan co-occurrence, yang menghubungkan kata-kata berdasarkan kemunculannya bersama dalam satu konteks. Dari jaringan ini, CT kemudian menerapkan algoritma deteksi komunitas (menggunakan Leiden atau Louvain) untuk menemukan kelompok kata yang relevan, membentuk suatu "komunitas" yang kemudian dianggap sebagai topik. Pendekatan ini memungkinkan CT untuk menemukan topik yang beragam tanpa perlu menentukan jumlah topik sebelumnya, seperti yang harus dilakukan pada LDA. Data percobaan menunjukkan bahwa CT mencatat Proportion of Unique Words (PUW) sebesar 1 pada sebagian besar dataset yang diuji, mengindikasikan topik-topik yang lebih beragam.
CT mengatasi keterbatasan LDA dalam menangani dokumen pendek. Dengan menerapkan Normalized Pointwise Mutual Information (NPMI) untuk menentukan bobot pada setiap tepi dalam jaringan keterhubungan kata, CT dapat mengidentifikasi topik dengan akurasi tinggi tanpa memerlukan dokumen panjang. Selain itu, dengan menggunakan algoritma Leiden, CT dapat menghasilkan hierarki topik hingga tiga tingkat, yang terbukti sangat relevan untuk aplikasi di bidang analisis sosial dan media. Misalnya, pada dataset BBC, CT mampu mengidentifikasi lima topik utama seperti "Bisnis," "Teknologi," dan "Politik," serta menemukan sub-topik lebih spesifik, seperti "Keamanan Internet" dalam sub-bidang "Teknologi."
Keunggulan CT juga terlihat dalam konteks multibahasa. Studi ini menunjukkan bahwa CT menghasilkan koherensi topik yang tinggi pada berbagai bahasa dengan CV sebesar 0.55 pada bahasa Prancis dan 0.57 pada bahasa Spanyol dalam dataset EuroParl. Kemampuan ini, menurut penulis, menjadi nilai tambah yang besar dalam era globalisasi, di mana dokumen lintas bahasa sangat umum. Tidak seperti model berbasis neural seperti BERTopic yang membutuhkan perangkat keras khusus dan waktu pemrosesan lama, CT dapat berjalan pada perangkat keras biasa, membuatnya lebih terjangkau dan mudah diterapkan.
Terakhir, kontribusi utama penelitian ini adalah menyediakan alat open-source yang dapat diakses oleh publik. Komunitas riset dapat menggunakan perpustakaan Python yang disediakan untuk menerapkan CT pada berbagai proyek penelitian, mulai dari pemetaan tema dalam opini publik hingga analisis politik global. Penulis mengklaim bahwa metode ini tidak hanya lebih efisien tetapi juga memberikan hasil yang lebih relevan dan dapat disesuaikan dengan kebutuhan spesifik.
Kesimpulan dari artikel ini menegaskan bahwa Community Topic (CT) adalah inovasi penting dalam pemodelan topik, khususnya untuk analisis teks dengan beragam bahasa dan konteks pendek. Metode ini berhasil menawarkan solusi atas keterbatasan LDA dan model lainnya, terutama dalam menghasilkan topik yang koheren, terstruktur, dan hierarkis. Para penulis mengamati bahwa hasil penelitian ini memberikan kontribusi nyata dalam memungkinkan eksplorasi dokumen yang lebih efisien bagi peneliti di berbagai bidang, termasuk sosiologi dan media. Selain itu, dengan waktu proses yang jauh lebih cepat (hanya sekitar 3 detik pada beberapa dataset) dan performa yang dapat bersaing bahkan pada perangkat keras biasa, CT berpotensi menjadi alat yang dapat diakses secara luas oleh akademisi dan praktisi.
Implikasi dari penelitian ini cukup besar. Dengan keberhasilan CT dalam mengidentifikasi topik lintas bahasa dan hierarki topik hingga tiga tingkat, model ini memiliki potensi untuk menjadi standar baru dalam eksplorasi teks besar. Ini juga mendukung kebutuhan masa depan untuk alat pemodelan topik yang lebih efisien dan fleksibel. Pendekatan berbasis jaringan yang diusulkan oleh Austin et al. (2024) ini menjadi langkah maju yang menjanjikan bagi perkembangan pemodelan topik, terutama dalam konteks sosial, politik, dan media global.
REFRENSI :
Austin, E., Makwana, S., Trabelsi, A., Largeron, C., & Zaane, O. R. (2024). Uncovering flat and hierarchical topics by community discovery on word co-occurrence network. Data Science and Engineering, 9(41--61). https://doi.org/10.1007/s41019-023-00239-2
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H