big data, berbagai sumber data yang disarikan dalam hostingtribunal.com menyediakan data berikut sebagai gambaran terkait industry berbasis data yang mekin berkembang. Berikut adalah beberapa contoh gambaran nya: • Penggunaan search engine google mencapai 40.000 search querries per detik atau 1,2 trillion pencarian dalam setahun; • Aplikasi penyiaran video Youtube menyajikan hampir 300 jam video baru per menit. Data dari Youtube yang tersimpan di server nya mencapai 1 exabyte (1 billion GB); • Pengguna mengupload 100 TB data melalui facebook per hari. Setiap menit, pengguna FB mengirimkan 31 milhyar pesan dan menonton 2,7 juta video; • Pengolahan data bigdata menunjukkan bahwa setiap orang menggunakan HP nya untk keperluan pengambilan foto (80%), dengan asumsi jumlah gadget yahg berdar di pasar saat ini, terdapat kebutuhan untuk penyimpanan data yang besar untuk waktu ke depan; • Peralatan pintar seperti smartwatch, smartfitness dan sejenisnya, memproduksi 5 QB data per hari; • Prediksi penyimpanan data berbasis cloud akan meningkat, estimasi pengguna akan menyimpan 30% datanya dalam server berbasis cloud; • Google menggunakan arsitektur server bigdata yang memungkinkan dia untuk menggunakan 1.000 server secara kolabroasi untuk menyediakan search engines yang digunakan saat ini. Metode open source untuk kolaborasi komputasi juga digunakan oleh perusahaan Hadoop yang selama ini menunjukan annual growth rate bisnisnya sebesar 58%; Terlepas dari perkembangan pesat yang dicapai sampai saat ini, belum ada definisi baku mengenai big data. Namun demikian, terdapat kesepahaman stakeholder mengenai Konsep atau pengertian big data itu sendiri.Â
Sebelum membahas pengertianSecara praktis, big data adalah kumpulan data yang diolah oleh institusi tertentu untuk keperluan penyajian informasi seperti machine.
Learning, proyeksi dan modelling serrta berbagai kebutuhan lain yang bersifat advance. Big data sebagaimana tipikal data, membutuhkan kapasitas storage. Sebagaimana istilah nya, big data membutuhkan kapasitas storage yang tinggi (terra byte sampai exabytes).Â
• VelocityÂ
Velocity mencerminkan kecepatan proses pengumpulan, pengolahan dan analisa data (generation process). Dalam prakteknya, kumpulan big data dilakukan update berdasarkan real time basis atau mendekati real time atau juga periode harian, mingguan dan bulanan melalui berbagai data warehouse. Proses tersebut membutuhkan kemampuan pengelolaan data yang juga memahami ketersediaan data yang dioleh berikut karakter nya. Pengelolaan data velocity penting dalam analisa big data yang dikembangkan untuk penggunaan machine learning dan atau AI dimana proses analisa otomatis akan mengidentifikasi pola pola yang dicari dalam data untuk dianalisa lebih lanjut.Â
• Variety
 Variety menunjukkan tipe tipe data yang dikumpulkan dan diolah. Pada umumnya terbgai atas data structured, unstructured dan semi structured data. Structured data disimpan dan diolah dalam database atau data warehouse menggunakan structured query language (SQL). Unstructured data yang pada umumnya berbentu teks dan dokumen biasa disimpan dalam Hadoop atau NoSQL database system. Semi structured data yang berbentuk web server logs atau streaming data pada umumnya dapat disimpan di datalake atau cloud storage.Â
• Veracity DataÂ
veracity mengacu pada verifikasi dan validasi kumpulan data yang diolah. Kumpulan data mentah yang diperoleh dari berbagai sumber (contoh media platform atau webpages) dapat mengakibatkan pertanyaan terkait kualitas data atau seberapa data tersebut dapat dipercaya validitasnya. Karena terdiri dari kumpulan data yang ber volume besar, dibutuhkan proses untuk mencari dan menambang data yang tidak valid tersebut untuk kemudin dilakukan penyesuaian. Data yang berkualitas rendah akan mengakibatkan analisa yang tidak akurat sehingga proses pembersihan data harus dilakukan di awal, sebelum dilakukan pengolahan data lebih lanjut.Â
• Value Masih ada keterkaitan dengan veracity, hanya data yang sudah melalui proses pembersihan di awal dapat dikatakan memiliki value sesuai kualitas nya. Data yang tidak memiliki verifikasi tinggi atau tidak dapat digunakan lebih lanjut karena isu validitas, dikatakan tidak memiliki value bagi perusahaan. Dengan demikian, proses data cleansing adalah proses awal yang perlu dilakukan untuk memaksimumkan value data bagi perusahaan.
 • Variability Variasi data (variability) mengacu pada kondisi kumpulan data yang berbeda satu sama lain. Perbedaan tersebut dapat digunakan untuk berbagai keperluan sesuai  dengan format masing masing dan dapat diartikan berbeda satu sama lain. Variability data pada umumnya meningkatkan komplikasi dalam proses dan analisa data.
Pentingnya Bigdata bagi perusahaan