Mohon tunggu...
Faizul Huda Alafi
Faizul Huda Alafi Mohon Tunggu... Mahasiswa - Mahasiswa Universitas Islam Negeri Maulana Malik Ibrahim Malang

Seorang mahasiswa teknik informatika yang suka dengan dunia game.

Selanjutnya

Tutup

Ilmu Alam & Tekno

Naive Bayes Ungguli Transformer? Rahasianya di Pra-Pemrosesam

25 September 2024   13:05 Diperbarui: 25 September 2024   13:13 53
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.

Naive Bayes Ungguli Transformer? Rahasianya di Pra-pemrosesan

Teknologi Transformer telah membawa perubahan besar dalam pemrosesan bahasa alami (NLP) dan pembelajaran mesin. Model seperti BERT, GPT, dan XLNet telah menjadi standar baru dalam berbagai aplikasi mulai dari klasifikasi teks hingga terjemahan bahasa. Namun, meskipun kecanggihan mereka, pertanyaan penting muncul: Apakah pra-pemrosesan teks masih relevan dalam era Transformer modern? 

Artikel ilmiah yang ditulis oleh Marco Siino, Ilenia Tinnirello, dan Marco La Cascia pada tahun 2023 dengan judul Is text preprocessing still worth the time? A comparative survey on the influence of popular preprocessing methods on Transformers and traditional classifiers, mengangkat topik ini dan menemukan bahwa teknik pra-pemrosesan masih memiliki peran penting, terutama dalam meningkatkan akurasi klasifikasi. Bahkan, dalam penelitian ini, penggunaan teknik pra-pemrosesan yang tepat dapat meningkatkan akurasi hingga 25%, seperti yang terlihat pada model XLNet saat diaplikasikan pada dataset IMDB.

Seiring dengan meningkatnya volume data yang tidak terstruktur di internet, tantangan yang dihadapi oleh sistem klasifikasi semakin kompleks. Teknik pra-pemrosesan seperti lowercasing, stemming, dan penghapusan stop words seringkali diabaikan karena dianggap tidak diperlukan oleh model canggih seperti Transformer. Namun, penelitian Siino et al. menegaskan kembali pentingnya strategi ini. 

Dalam eksperimen yang dilakukan, mereka menggunakan empat dataset dari berbagai domain dan menunjukkan bahwa meskipun model Transformer telah mengalami peningkatan drastis dalam hal kemampuan memahami konteks, mereka tetap rentan terhadap "noise" dalam data. Hal ini terutama berlaku pada teks yang mengandung kesalahan ejaan, penggunaan slang, atau elemen yang tidak relevan seperti tanda baca berlebihan. Menariknya, pada beberapa kasus, model tradisional seperti Naive Bayes yang dioptimalkan dengan pra-pemrosesan tertentu dapat mengungguli performa Transformer.

***

Penelitian yang dilakukan oleh Siino et al. (2023) menunjukkan bahwa pra-pemrosesan teks masih sangat relevan, bahkan di tengah dominasi model Transformer modern. Eksperimen yang dilakukan pada empat dataset -- IMDB, Fake News Spreaders, Patronizing and Condescending Language (PCL), dan 20 Newsgroup -- menghasilkan temuan yang signifikan. Pada dataset IMDB, misalnya, ketika XLNet dioptimalkan dengan teknik pra-pemrosesan, peningkatan akurasi sebesar 25% tercatat. Pada kasus lain, Naive Bayes yang menggunakan strategi pra-pemrosesan seperti stemming dan penghapusan stop words berhasil mengungguli Transformer dengan selisih 2% dalam akurasi.

Dalam konteks ini, penting untuk memahami bahwa model Transformer dirancang untuk memahami konteks yang lebih luas melalui mekanisme perhatian (attention mechanism), namun mereka tidak sepenuhnya kebal terhadap "noise" dalam data. Misalnya, kesalahan ejaan, penggunaan akronim, dan tanda baca yang berlebihan dapat mempengaruhi kualitas klasifikasi teks. Di sinilah pra-pemrosesan memainkan peran penting dalam membersihkan dan menormalkan teks sehingga model dapat fokus pada elemen yang relevan.

Penggunaan pra-pemrosesan yang tepat juga memiliki dampak signifikan pada efisiensi komputasi. Misalnya, penghapusan stop words atau stemming dapat mengurangi dimensi data, yang pada akhirnya mempercepat proses pelatihan model. Hal ini relevan dalam skenario di mana sumber daya komputasi terbatas, atau dalam kasus big data, di mana volume teks yang harus diproses sangat besar. Penelitian ini mencatat bahwa penggunaan pra-pemrosesan mampu mempercepat waktu pelatihan dan pengujian model, meskipun tidak semua teknik memberikan hasil yang sama. Lowercasing dan stemming, misalnya, terbukti lebih efektif pada dataset dengan teks formal, sementara penghapusan stop words lebih bermanfaat pada dataset yang lebih kasual seperti Twitter.

Dengan demikian, hasil penelitian ini menyoroti pentingnya mempertimbangkan teknik pra-pemrosesan secara kontekstual, sesuai dengan karakteristik dataset dan model yang digunakan. Dalam penelitian ini, kombinasi pra-pemrosesan yang tepat dapat menentukan apakah model sederhana seperti Naive Bayes dapat bersaing, atau bahkan mengungguli, model Transformer pada tugas klasifikasi tertentu. Konteks dataset, seperti volume noise atau jenis bahasa yang digunakan, menjadi faktor penting dalam memilih strategi pra-pemrosesan yang efektif.

***

Dari penelitian Siino et al. (2023), jelas bahwa pra-pemrosesan teks masih memiliki tempat yang sangat penting dalam pengembangan model pembelajaran mesin, termasuk model Transformer yang canggih sekalipun. Meskipun Transformer mampu menangani berbagai tugas pemrosesan bahasa alami dengan baik, mereka tetap menunjukkan peningkatan performa yang signifikan saat dipadukan dengan teknik pra-pemrosesan yang tepat. Dengan peningkatan akurasi hingga 25% pada model XLNet di dataset IMDB, serta keunggulan model tradisional seperti Naive Bayes dalam beberapa kasus, penelitian ini menegaskan kembali bahwa pra-pemrosesan harus dilihat sebagai langkah kritis dalam pipeline NLP.

Implikasi dari temuan ini adalah bahwa praktisi dan peneliti di bidang NLP harus mempertimbangkan untuk tidak sepenuhnya bergantung pada kecanggihan model Transformer tanpa memperhatikan kebersihan data. Memilih teknik pra-pemrosesan yang sesuai dengan jenis data dan tugas spesifik dapat menghasilkan peningkatan performa yang signifikan, baik dalam hal akurasi maupun efisiensi komputasi.

Penelitian ini menawarkan panduan penting untuk penelitian dan aplikasi masa depan, terutama dalam menghadapi volume data yang semakin besar dan beragam.

Referensi :

Siino, M., Tinnirello, I., & La Cascia, M. (2023). Is text preprocessing still worth the time? A comparative survey on the influence of popular preprocessing methods on Transformers and traditional classifiers. Information Systems, 121, 102342. https://doi.org/10.1016/j.is.2023.102342
 

Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H

HALAMAN :
  1. 1
  2. 2
Mohon tunggu...

Lihat Konten Ilmu Alam & Tekno Selengkapnya
Lihat Ilmu Alam & Tekno Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun