Dari penelitian Siino et al. (2023), jelas bahwa pra-pemrosesan teks masih memiliki tempat yang sangat penting dalam pengembangan model pembelajaran mesin, termasuk model Transformer yang canggih sekalipun. Meskipun Transformer mampu menangani berbagai tugas pemrosesan bahasa alami dengan baik, mereka tetap menunjukkan peningkatan performa yang signifikan saat dipadukan dengan teknik pra-pemrosesan yang tepat. Dengan peningkatan akurasi hingga 25% pada model XLNet di dataset IMDB, serta keunggulan model tradisional seperti Naive Bayes dalam beberapa kasus, penelitian ini menegaskan kembali bahwa pra-pemrosesan harus dilihat sebagai langkah kritis dalam pipeline NLP.
Implikasi dari temuan ini adalah bahwa praktisi dan peneliti di bidang NLP harus mempertimbangkan untuk tidak sepenuhnya bergantung pada kecanggihan model Transformer tanpa memperhatikan kebersihan data. Memilih teknik pra-pemrosesan yang sesuai dengan jenis data dan tugas spesifik dapat menghasilkan peningkatan performa yang signifikan, baik dalam hal akurasi maupun efisiensi komputasi.
Penelitian ini menawarkan panduan penting untuk penelitian dan aplikasi masa depan, terutama dalam menghadapi volume data yang semakin besar dan beragam.
Referensi :
Siino, M., Tinnirello, I., & La Cascia, M. (2023). Is text preprocessing still worth the time? A comparative survey on the influence of popular preprocessing methods on Transformers and traditional classifiers. Information Systems, 121, 102342. https://doi.org/10.1016/j.is.2023.102342
Â
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H