Penghapusan Tanda Baca : Menghapus tanda baca.
Stemming dan Lemmatisasi : Meringkas kata menjadi bentuk dasar atau akarnya. Stemming memotong sufiks, sedangkan lemmatisasi mempertimbangkan konteks dan mengubah kata menjadi bentuk dasar yang bermakna.
Normalisasi Teks : Standarisasi format teks, termasuk mengoreksi kesalahan ejaan, memperluas kontraksi, dan menangani karakter khusus.
Â
3. Representasi Teks
Bag of Words (BoW) : Mewakili teks sebagai kumpulan kata-kata, mengabaikan tata bahasa dan urutan kata tetapi tetap melacak frekuensi kata.
Term Frequency-Inverse Document Frequency (TF-IDF) : Statistik yang mencerminkan pentingnya kata dalam dokumen relatif terhadap kumpulan dokumen.
- Penanaman Kata : Menggunakan representasi vektor kata yang padat di mana kata-kata yang secara semantik mirip lebih berdekatan dalam ruang vektor (misalnya, Word2Vec, GloVe).
4. Ekstraksi Fitur
Mengekstrak fitur-fitur yang bermakna dari data teks yang dapat digunakan untuk berbagai tugas NLP.
N-gram : Menangkap urutan N kata untuk mempertahankan beberapa konteks dan urutan kata.
Fitur Sintaksis : Menggunakan tag bagian-bagian pidato, dependensi sintaksis, dan pohon penguraian.