Satu minggu belakangan saya iseng-iseng belajar coding menggunakan bahasa python yang relatif lebih sederhana dari bahasa lainnya. Objektifnya adalah melakukan text mining terhadap informasi di web maupun twitter. Dalam bahasa sederhana kira-kira membuat coding untuk mencari isu / kata yang paling dominan untuk satu keyword tertentu yang kita masukan di Google. Secara umum langkah text mining yang dilakukan adalah,
SATU. Memasukan keyword ke Google, saya pakai tiga keyword yang berbeda, yaitu, "agus DAN sylvi", "ahok", dan "anies". Dari hasil googling ini, diambil masing-masing 100 URL. Kebanyakan URL yang diberikan oleh Google adalah URL dari media online di Indonesia. Jadi tampaknya informasi dari Google lebih banyak informasi dari media.
DUA. Kemudian menggunakan coding, browse ke masing-masing 100 URL dan mengambil semua text yang ada di web tersebut. Hasilnya disimpan dalam 3 file yang berbeda untuk masing2 CAGUB.
TIGA. Langkah selanjutnya adalah melakukan text mining, ini agak tricky, karena ternyata ada sekitar 30.000+ kata yang diperoleh dari text yang diambil dari 100 URL tersebut. Di samping itu, ada banyak sekali iklan yang ada di media online. Jadi langkah yang pertama kali harus dilakukan adalah membersihkan dari kata-kata yang sering dipakai istilah keren-nya stopwords (seperti, yang, dari, ke, anda, kami dll), juga membersihkan dari kata-kata yang tidak relevan dari iklan, sehingga merek, tipe HP dll harus dibuang. Proses ini di bantu menggunakan tool dari NLTK, cuma kita harus mencari sendiri corpus & stopwords bahasa Indonesia karena yang banyak adalah corpus bahasa Inggris.
EMPAT. Untuk memberikan arti dari kata yang diperoleh, kita perlu melihat/menghitung hubungan antar kata. dalam bahasa sederhana, misalnya kata ANIES banyak berhubungan dengan kata apa saja, dsb.
ENAM. Terakhir kita perlu memvisualisasikannnya dalam bentuk grafik. Ini menggunakan aplikasi gephi yang open source. Disini bisa dimanipulasi sedikit, dalam arti size/besar kata bisa diatur sesuai dengan tingkat penting-nya kata tersebut. Size garis hubungan juga bisa dibuat sesuai dengan tingkat intensitas hubungan yang terjadi. Hasilnya adalah 3 gambar berikut untuk masing-masing CAGUB DKI.
Saat tulisan ini ditulis, saya masih menjalankan komputer untuk menganalisis hasil search menggunakan twitter yang ternyata membutuhkan waktu lebih lama.
Semoga bisa bermanfaat.