Untuk itu kami melakukan penyempurnaan atas algoritma pohon DOM. Penyempurnaan utamanya dilakukan pada :
- Penyusunan pohon DOM tidak hanya dari level teratas, tetapi juga dari level terbawah secara simultan. Ini memastikan pengenalan dini perubahan pohon dari sebuah halaman situs secara akurat.
- Karakterisasi pohon DOM tidak hanya secara vertikal, tetapi juga horisontal. Sehingga tidak hanya kedalaman tetapi juga lebar dari pohon DOM turut diperhitungkan. Kesemuanya direpresentasikan dengan algoritma matematis dan digambarkan dalam bentuk diagram batang seperti pada gambar.
Algoritma ini kemudian disebut sebagai algoritma bar tree (pohon batang). Penyempurnaan ini memungkinkan tidak hanya pengenalan perubahan pohon di semua level, tetapi juga tidak terpengaruh oleh penambahan iklan dsb selama terjadi di level kedalaman yang sama.
Hasil
Dari hasil percobaan yang dilakukan oleh Z. Akbar untuk memanen data-data terkait iptek dari aneka situs di Indonesia, diperoleh hasil yang cukup mengesankan dengan tingkat akurasi mencapai rata-rata diatas 95 persen [4].
Algoritma dan sistem yang telah diaplikasikan di ISI secara prinsip dengan mudah bisa diimplementasikan untuk aneka kasus yang lain. Lebih jauh, sistem ini telah dirilis sebagai open source (sumber terbuka) di SourceForge.net [7]. Dilain pihak algoritma ini telah terdaftar hak ciptanya sejak 2010 [8] dan terpilih menjadi salah satu dari 101 Inovasi Indonesia Paling Prospektif tahun 2009 [9].
Lebih jauh lagi, saat ini algoritma kami juga telah diimplementasikan secara global, salah satunya adalah Slovak Environmental Index di NESIS Project Eropa.
Referensi
- Z. Akbar, L.T. Handoko, "Pattern discovery for semi-structured web pages using bar-tree representation", International Journal of Computer Theory and Engineering 3 (2011) 261-269.
- Z. Akbar, L.T. Handoko, "Reverse method for labeling the information from semi-structured web pages", Proceeding of the International Conference on Signal Processing Systems (2009) pp. 551-555 (DOI 10.1109/ICSPS.2009.86).
- Hadiyanto, L.T. Handoko, "Database Riset, Ilmu pengetahuan dan Teknologi - DBRIpTek", http://dbriptek.lipi.go.id (2007).
- Z. Akbar, L.T. Handoko, "Indonesian Scientific Index - ISI", http://www.isi.lipi.go.id (2009).
- W3 Consortium, "The Document Object Model", http://www.w3.org/DOM/ (2005).
- Contoh : J. Wang, F.H. Lochovsky, "Data extraction and label assignment for web databases", Proceedings of the 12th international conference on World Wide Web (2003) pp. 187-196.
- Z. Akbar, L.T. Handoko, "openISI" http://sourceforge.net/projects/openisi/ (2008).
- Z. Akbar, L.T. Handoko, "Integrasi Data dengan Algoritma Pemanenan Web Terfokus", Hak Cipta no. 045143 (25 Januari 2010).
- Z. Akbar, I. Firmansyah, B. Hermanto, L.T. Handoko, "Aplikasi TI Publik Berbasis Komputasi dan Data Terdistribusi", 101 Inovasi Indonesia Paling Prospektif (2009).
Sumber : Blog Sivitas LIPI
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H