Tulisan untuk merayakan Hari Statistik Nasional 2013. Terkait isu USANG-nya pemanfaatan Statistika di era Big Data. Terkait bagaimana kita menanggapinya dan berperan. Semoga bermanfaat dan menyadarkan.
Statistika merupakan ilmu yang sudah berkembang sejak awal abad masehi. [1] Dimana saat itu sejarah mencatat bahwa bangsa romawi pernah melakukan kegiatan semacam sensus (sudah tergolong akurat) untuk mendata seluruh warga negaranya. Akan tetapi statistika sebenarnya masih tergolong ilmu muda. Konsep fundamental statistika baru berkembang di abad 20. Fisher, Karl Pearson, Neyman Pearson, C.R Rao dan lainnya merupakan aktor pembentuk pondasi ilmu statistika yang kita kenal sekarang.
Era teknologi dan informasi pun datang, era dimana statistika berkembang menjadi lebih aplikatif. Di era ini analisis statistik rumit pun bisa dipakai lebih mudah, cepat, dan tepat dengan bantuan komputerisasi. Karena era ini pula, pengembangan analisis-analisis baru statistik pun juga menunjukkan arah positif. Munculnya metode berbasiskan komputer seperti Bootstrap, Lasso, dan MCMC merupakan buktinya. Perkembangan pesat di abad 20 seakan membuat banyak ahli merasa statistika sudah menjadi ilmu mapan yang sulit digoyahkan lagi.
Babak baru era teknologi informasi merubah segalanya bagi ilmu Statistika. Zaman baru muncul, dimana arus berbagai jenis data (velocity) benar-benar tinggi dan cepat, sehingga menghasilkan data amat besar (volume) dengan variasi yang tinggi (variety). Zaman ini biasa disebut dengan era Big Data.
Banyak prediksi dan fakta yang mengindikasikan era Big Data. [2] Pada tahun 2000 ada 800.000 petabytes (1 petabytes = 1024 terabytes) data yang disimpan di dunia, dan diprediksi akan mencapai 35 zettabytes (1 zettabytes = 1048576 petabytes)pada tahun 2020. [3] Pada tahun 2012, ada sekitar 5 miliar pencarian tiap harinya yang dilakukan lewat Google. [2] Di tahun yang sama, tiap harinya Twitter menghasilkan data sekitar 7 terabytes, sedangkan facebook menghasilkan 10 terabytes, baik itu teks, foto, maupun video. [4] Selain itu jumlah pengguna telepon seluler dunia sudah mencapai lebih dari 5 miliar pengguna di tahun 2010 (80% ada di negara berkembang), pastinya akan menghasilkan arus data SMS dan telepon yang tinggi. [5] Selain itu masih banyak lagi fakta yang mengindikasikan datangnya era Big Data.
Selain itu, penggunaan analisis statistik untuk diterapkan pada Big Data dianggap sudah usang. Analisis statistik saat ini kurang cocok untuk data-set sekomplek Big Data. Dahulu para pengembang analisis statistik, penelitiannya didasarkan pada data-set yang kecil. Walaupun di teori statistika ada yang terkait large data-set [6], akan tetapi latar belakangnya amatlah berbeda dengan Big Data. Large data-set di teori statistika tidaklah memiliki volume, velocity, dan varian sekomplek Big Data.Lalu bagaimana dampak era Big Data bagi ilmu statistika? Bisa dikatakan Big Data merupakan resource Informasi/knowledge paling menjanjikan saat ini. Banyak pihak tergiur untuk memanfaatkannya. Big Data sudah banyak dimanfaatkan untuk mempelajari profil konsumen, pola konsumsi, risk management, dsb. Cara pengumpulan data semacam survey sudah mulai ditinggalkan. Dikarenakan pemanfaatan Big Data akan menghasilkan informasi lebih cepat/realtime, dan relatif lebih murah. Selain itu tidak akan menghasilkan beban responden seperti survey. Hal itu jelas cukup mengusik ilmu statistika, dimana survey merupakan cara pengumpulan data yang menghasilkan data-set yang amat lekat dan cocok dengan analisis statistik.
Saat ini analisis Big Data lebih banyak memakai machine learning seperti Binary Tree, Neural Network, K-Means, Clustering, Classification, dsb yang sebenarnya merupakan pengembangan dari bidang Data Mining, dimana ahli-ahli IT lebih berperan. Statistisi masih belum benar-benar ikut ambil bagian dalam era perubahan ini. Melihat berbagai fakta itu, bagaimana kita sebagai insan statistik menanggapi hal tersebut? Bagaimana pola pikir yang harus dimiliki agar tetap survive di era Big Data ini?
Jembatan Antara Small Data dan Big Data
Pertama, janganlah berpikir negatif tentang kondisi ini. Setelah ditelusuri, walau analisis statistik dirasa usang untuk diimplementasikan pada Big Data, sebenarnya proses dalam memperoleh informasi dari Big Data sangatlah mirip dengan statistical thinking yang merupakan poros utama kegiatan statistik. Kegiatan merancang, mengumpulkan, mengolah, memvisualisasi, menganalisis, hingga mengintepretasikan data, sama-sama diterapkan di small data maupun Big Data. Pemanfaatan Big Data bisa dikatakan adalah kegiatan statistik yang lebih modern. Oleh karena itu, era Big Data sebenarnya merupakan peluang sekaligus tantangan bagi statistika dan para pakarnya.
Dengan menyadari eksistensi statistical thinking di era Big Data, itu merupakan awal langkah besar yang menjembatani statistika dari era small data menuju Big Data. Menyadarkan kita bahwa bagi statistika, Big Data sebenarnya merupakan saatnya era inovasi. Menjadi pelecut terbesar bagi perkembangan dan inovasi keilmuan statistika yang masih cenderung stagnan.
Sebagai intermezzo, perlu diketahui bahwa sejarah menunjukkan statistika malah mampu berkembang pesat ditengah isu keusangannya. Saat metode survey sampel belum ditemukan, pastinya banyak yang enggan melakukan pendataan terlalu sering melalui sensus, karena memakan sumber daya yang besar. Statistika pun serasa sudah usang ketika belum ditemukannya analisis non-parametrik, dimana tidak semua data-set bisa memenuhi asumsi untuk analisis parametrik, dan masih banyak lagi contoh lainnya. Oleh karena itu insan statistik tidak boleh gentar akan datangnya era Big Data. Akan tetapi harus lebih semangat dalam inovasi pengembangan ilmu statistika.
Batu Pijakan Inovasi
Inovasi merupakan “bumbu-bumbu” yang harus ada saat statistika ingin menyeberang dari era small data menuju Big Data. Inovasi muncul karena daya cipta manusia yang dirangsang oleh suatu “titik awal”. “Titik awal” ini mampu menjadi pedoman maupun sumber permasalahan sehingga timbullah inovasi. Dalam inovasi statistika selama ini dari sensus zaman romawi hingga statistik modern akhir abad 20, ada “titik awal” yang selalu menyertai proses inovasi itu. Statistical thinking disini lagi-lagi berperan, yaitu sebagai “titik awal”, sesuatu yang amat perlu kita ketahui sebagai bekal usaha inovasi statistika di era Big Data.
Mengapa statistical thinking bisa disebut sebagai “titik awal”? Apabila diibaratkan statistika adalah pohon, maka statistical thinking bisa dikatakan adalah biji awal mula dari statistika. Dari situlah statistika bisa terus tumbuh dan berkembang. Konkritnya, statistical thinking bisa dikatakan adalah alur berpikir serta tindakan yang perlu ditempuh untuk menghasilkan data statistik, informasi, maupun knowledge. Alur berpikir itu tertulis pada pengertian statistika (arti luas) [7], yaitu merancang, mengumpulkan, mengolah, memvisualisasi, menganalisis, hingga mengintepretasikan data. Alur itulah yang menjadi batu pijakan bagi ilmu statistika untuk menghasilkan inovasi-inovasi selanjutnya.
Survey sampel muncul karena para ahli statisik terdahulu merasa bahwa statistical thinking pada sensus itu membutuhkan waktu, biaya, dan tenaga yang besar. Penerapan probabilitas pada statistik muncul karena ditemukan ketidakpastian pada proses maupun hasil dari statistical thinking. Munculnya analisis di bidang non-parametrik dikarenakan dalam proses statistical thinking secara praktis ditemukan kenyataan bahwa tidak semua data memenuhi asumsi parametrik. Semakin banyaknya permintaan akan data, juga menuntut statistical thinking yang cepat dan efisien dengan komputerisasi. Selain itu, masih banyak lagi inovasi yang telah terjadi di ilmu statistika dengan berpijakan pada statistical thinking.
Di era Big Data ini, dengan berpijakan pada statistical thinking, penting bagi ahli statistik mengembangkan metodologi baru yang sesuai dengan Big Data. Menurut penulis, ada beberapa titik penting dari statistical thinking yang sangat perlu diteliti dan dikembangkan, yaitu :
-Memadukan pemanfaatan Big Data dengan metode pengumpulan data tradisional (survey, sensus, dan registrasi)
-Lebih banyak menemukan Machine Learning baru yang mampu menginferensia secara statistik
-Metode penghitungan bias dari pemanfaatan Big Data
-Pengambilan sampel pada Big Data.
Pengembangan pada poin-poin itu amat penting, terutama untuk pemanfaatan Big Data sebagai data statistik resmi (official statistics). Hal itu terkait dengan penggunaan official statistics sebagai dasar pengambilan kebijakan publik, dimana dibutuhkan kemapanan secara statistik dalam pemanfaatan Big Data. [8] [9] Di tahun 2012 - 2013 ini memang cukup sering diadakan pertemuan Internasional yang membahas kelayakan, potensi dan pengembangan pemanfaatan Big Data sebagai resource baru official statistics. Hingga saat ini, sebagian besar pemanfaatan Big Data hanya dilakukan oleh perusahaan-perusahaan swasta, dimana data/informasi yang ingin mereka dapatkan hanya untuk kepentingan dengan scope kecil.
Ada beberapa mindset yang harus dipahami ahli statistik sebagai bekal berpijak pada statistical thinking di era Big Data ini. Pertama yang paling penting, pengertian Data haruslah dipahami secara lebih luas. Data bukan hanya sekumpulan angka yang bersifat acak saja (definisi statistik), akan tetapi Data merupakan rekaman dari setiap hal yang terjadi (definisi Computer Science). Data dapat berbentuk apa saja, bisa berupa angka, kata, kalimat, suara, gambar, video, dsb. Kedua, ahli statistik harus lebih bekerjasama dengan para ahli Computer Science, dikarenakan bidang Big Data saat ini lebih banyak dikembangkan oleh mereka.
Kesadaran Statistik
Pemanfaatan Big Data cepat atau lambat akan merambah segala bidang kehidupan. Hal itu dikarenakan data statistik dan informasi yang cepat dan real-time semakin dibutuhkan di era ini. Salah satunya sebagai dasar kebijakan publik, atau dengan kata lain sebagai resource baru bagi data statistik resmi (official statistics).
Pemanfaatan Big Data sebagai resource baru data statistik, memiliki resiko kurang dipercaya oleh masyarakat. Karena hal itu memungkinkan munculnya beberapa cara baru dalam membaca data statistik tersebut. Sehingga beresiko munculnya kesalahtafsiran masyarakat. Saat ini pun (dimana data statistik masih memakai metode survey sampel, sensus, dan registrasi), sudah banyak terjadi kesalahtafsiran masyarakat akan data statistik.
Statistical thinking bukan hak milik insan statistik saja, akan lebih baik masyarakat umum juga mengetahui dan memahaminya walaupun hanya esensinya saja. Dalam sistem statistik nasional, masyarakat memiliki peran sebagai pengguna data dan sumber data itu sendiri. Tindakan untuk mengedukasi masyarakat tentang statistical thinking, merupakan kebijakan tepat sebagai mitigasi datangnya era dimana Big Data banyak dimanfaatkan sebagai data statistik resmi. Lewat edukasi itu pasti akan meningkatkan kesadaran statistik masyarakat, terutama untuk mengurangi ketidakpercayaan dan kesalahtafsiran masyakarat akan data statistik.
Esensi dari statistical thinking yang perlu dipahami masyarakat, bahwa data statistik pasti mengandung error/kesalahan sehingga tidak bisa dibilang 100% benar. Penyelenggara statistik dalam setiap melakukan pengumpulan data, memiliki prinsip bahwa data yang dikumpulkan itu pasti mengandung kesalahan, tetapi dalam melaporkan dan mendiseminasikan datanya tidak melakukan kebohongan. Penyelenggara statistik bekerja bukan untuk bertujuan menghasilkan data yang 100% benar, akan tetapi bekerja untuk sedapat mungkin mengecilkan error data statistik. Selain itu dalam membaca data, masyarakat harus (cukup) memahami terlebih dahulu selubung luar metodologi yang dipakai untuk menghasilkan data statistik itu.
Para insan statistiklah yang harus lebih aktif menjadi pionir peningkatan sadar statistik masyarakat. Dimana sebenarnya hal ini sudah tersirat pada UU no. 16 tahun 1997 tentang statistik pasal 32h [10], yang berisi perlunya “meningkatkan kesadaran masyarakat akan arti dan kegunaan statistik”. Inilah tugas “sampingan” insan statistik selain harus berjuang secara keilmuan di era Big Data. Menyadari, berpedoman, serta men-sharing-kan statistical thinking di era Big Data adalah kuncinya.
Sumber Inspirasi
[1] Badan Pusat Statistik. 2010. “Sensus Penduduk 2010 (SP2010)”. (http://bit.ly/17Xv8SS)
[2] Roberto V. Zicari, Goethe (University Frankfurt). 2012. “Big Data : Challengges and Opportunities”. (http://bit.ly/17eivVe)
[3] Statistics Brain. 2012. “Google Annual Search Statistics”. (http://bit.ly/Owerq2)
[4] UN Global Pulse. 2012. “Big Data for Development: Challenges & Opportunities”. (http://bit.ly/16KsDnX)
[5] Phil O Doherty. 2012. “20 Shocking Facts and Figures About Big Data”. (http://bit.ly/1dHPww6)
[6] Robert D. Mason, Douglas A. Lind. 1999. “Teknik Statistika Untuk Bisnis & Ekonomi”. (http://bit.ly/13VlMKs)
[7] J. Supranto. 2000. “Statistik Teori dan Aplikasi”. (http://bit.ly/1aKMx6l)
[8] Paul Cheung. 2012. “Big Data, Official Statistics and Social Science Research : Emerging Data Challenges”. (http://bit.ly/17iRePA)
[9] Andrew Wyckoff.. 2013. “Exploiting Big Data for Statistics : Some Implications for Policy”. (http://bit.ly/144Xzfx)
[10] Badan Pusat Statistik. 1997. “Undang-Undang Negara Republik Indonesia nomor 16 tahun 1997 tentang Statistik”. (http://bit.ly/16N7Eko)
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H