Penghapusan Stopword : Menghapus kata-kata umum (seperti "dan", "yang", "adalah") yang mungkin tidak memiliki makna signifikan.
Normalisasi Teks: Standarisasi teks, termasuk normalisasi huruf besar-kecil, menghilangkan tanda baca, dan mengoreksi kesalahan ejaan.
2. Sintaksis dan Parsing dalam NLP
Penandaan Part-of-Speech (POS) : Menetapkan bagian-bagian pidato ke setiap kata dalam kalimat (misalnya, kata benda, kata kerja, kata sifat).
Penguraian Ketergantungan: Menganalisis struktur tata bahasa suatu kalimat untuk mengidentifikasi hubungan antar kata.
- Penguraian Konstituensi: Memecah kalimat menjadi bagian-bagian atau frasa penyusunnya (misalnya, frasa kata benda, frasa kata kerja).
3. Analisis Semantik
Pengenalan Entitas Bernama (NER): Mengidentifikasi dan mengklasifikasikan entitas dalam teks, seperti nama orang, organisasi, lokasi, tanggal, dll.
Disambiguasi Arti Kata (WSD): Menentukan arti kata mana yang digunakan dalam konteks tertentu.
Resolusi Koreferensi : Mengidentifikasi saat kata-kata yang berbeda merujuk pada entitas yang sama dalam sebuah teks (misalnya, "dia" merujuk pada "John").
Â
4. Ekstraksi Informasi