Beberapa bahasa tulisan, seperti bahasa mandarin, jepang, dan thai, tidak memiliki batasan kata. Dalam contoh ini, tugas text-parsing memerlukan idetifikasi terhadap batasan kata, yang seringkali merupakan tugas yang sangat sulit. Tantangan serupa dalam segmentasi naskah muncul ketika menganalisa bahasa verbal, karena suara menyajikan rangkaian huruf dan kata yang bercampur satu sama lain.
- Penandaaan pada setiap jenis kata
Sangatlah sulit untuk menandai istilah-istilah dalam suatu teks yang terkait dengan bagian tertentu dari suatu naskah (misalnya kata benda, kata kerja, kata sifat, kata keterangan, dst), karena bagian dari naskah tidak hanya bergantung pada definisi istilah tetapi juga pada konteks dimana teks digunakan.
- Disambiguasi makna
Banyak kata yang memiliki lebih dari satu arti. Memilih arti yang paling masuk akan hanya bisa dicapai dengan mempertimbangkan konteks di mana kata digunakan.
- Pemrosesan setiap kata
Suatu kalimat seringkali dianggap sebagai suatu aksi oleh si pembicara. Struktur kalimatnya sendiri mungkin tidak berisi cukup informasi untuk mendefinisikan tindakan ini. Contohnya, “Can you pass the class?” memerlukan jawaban singkat ya/tidak, padahal “Can you pass the salt?” adalah permintaan untuk melakukan suatu tindakan nyata untuk dilakukan.
- Penggunaan kalimat yang tidak baku
Aksen asing atau lokal dan berbagai hambatan vokal dalam pidato dan kesalahan ketik dan tata bahasa dalam teks-teks menyebabkan pengolahan bahasa bahkan lebih sulit.
- Penggunaan sintaks kata yang ambigu
Tata bahasa dalam bahasa alami seringkali ambigu; artinya, ada berbagai struktur kalimat yang memungkinakan yang perlu dipertimbangkan. Memilih struktur yang paling tepat biasanya memerlukan paduan informasi kontektual dan semantik.
Pada saat ini belum ada algoritma yang mampu secara otomatis membaca dan memperoleh pengetahuan dari teks. Dengan menerapkan algoritma ‘learning’ terhadap teks yang diurai, para peneliti dari lab NLP Stanford University telah mengembangkan metode yang bisa secara otomatis mengidentifikasi konsep dan keterkaitan antara konsep-konsep tersebut di dalam teks.
Dengan menerapkan prosedur unik terhadap sejumlah besar teks, algoritma-algoritma mereka secara otomatis memperoleh ratusan ribu item pengetahuan dunia dan menggunakan mereka untuk menghasilkan repository yang sudah ditingkatkan secara signifikan untuk WordNet.
WordNet adalah database kosa kata bahasa inggris yang dibuat dengan susah payah, definisi-definisinya, kumpulan sinonim, dan berbagai hubungan semantik antara kumpulan sinonim. Ini adalah sumberdaya utama bagi aplikasi NLP, tetapi telah terbukti sangat mahal untuk dibuat dan dimaintain secara manual. Dengan secara otomatis mendorong pengetahuan ke dalam WordNet, ada potensi untuk membuat WordNet sumber daya yang lebih besar dan lebih komprehensif untuk NLP dengan sebagian kecil dari biaya itu.
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H