Crawling adalah aplikasi script program untuk melakukan scan kesemua halamandi internet dan dibuatkan index untuk data yang di carinya.
Nama lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.
Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan.
Web crawl bisa beroperasi hanya sekali, misalnya untuk suatu projek yang hanya sekali jalan, atau jika tujuannya untuk jangka panjang seperti pada kasus search engine, mereka bisa diprogram untuk menyisir Internet secara periodik untuk menentukan apakah sudah berlangsung perubahan signifikan. Jika suatu situs mengalami trafik sangat padat atau kesulitan teknis, spider atau crawl dapat diprogram untuk mencatat hal ini dan mengunjunginya kembali setelah kesulitan teknis itu terselesaikan.
Secara sederhana proses Web Crawling dapat dijelaskan sebagai berikut; Diberikan sekumpulan URL yang disebut dengan seed set, kemudian secara multi-thread Web Crawler mulai dengan memilih salah satu URL di seed set tersebut. Selanjutnya Web Crawler mengunduh halaman web yang diacu oleh URL dan melakukan parsing. Isi halaman web yang merupakan konten (biasanya berupa teks) dipisahkan dari link yang terdapat di halaman itu. Teks yang telah dipisahkan diteruskan ke modul bernama text indexer yang nantinya akan melakukan indexing dan membentuk query. Sementara itu link yang telah dipisahkan dipindahkan ke URL Frontier, sebuah wadah yang berisi kumpulan URL yang berkorespondensi dengan halaman web utama. Dengan kata lain URL Frontier adalah sebuah sub seed set. Keseluruhan proses Web Crawling akan berulang secara rekursif. Suatu saat URL yang tersimpan di URL Frontier akan diambil dan ditelusuri lebih lanjut, dan pada akhirnya disimpan kembali untuk keperluan Web Crawling berkelanjutan di masa depan.
Algoritma dasar
Tahapan pembuatan crawling dengan menggunakan aplikasi VB.Net
User Interface Form :
Keterangan :
Jenis Komponen
Nama
Text
Form
Form1
Form1
Button
Button1
Button1
TextBox