Kini profesi sebagai Data scientist mulai popular hingga dibahas didalam “Data Scientist:The Sexiest Job of the 21st century” yaitu sebuah artikel dari Harvard Business Review ditulis oleh Thomas H.Davenport and DJ Patil. Karir sebagai Data scientist mulai dicari dimana-mana dengan gaji yang cukup tinggi, ilmu yang terus berkembang dan menjanjikan, dan selalu dicari perusahaan besarterutama sektor teknologi.
Mungkin anda sudah mendengar tentang hal ini sebelumnya, lalu anda mencari tau sendiri tentang karir sebagai data scientist. Namun banyak artikel ataupun website yang menjelaskan karir data scientist secara garis besar saja seperti “Datascientist adalah profesi yang menganalisa data menggunakan machine learning sehingga mendapatkan hasil prediksi atau informasi penting (insight).” Memang tidak salah, namun penjelasan yang terlalu menekankan pada data analytic dan deep learning tanpa mengkupas tuntas ilmu Data Science dapat menimbulkan banyak miskonsepsi.
Contoh miskonsepsi yang banyak adalah data scientist sering disamakan dengan data analyst dan deep learning yang terlalu sering dibahas dan ditekankan sehingga melupakan esensi utama dari seorang data scientist, yaitu memecahkan masalah menggunakan data. Perlu diingat deep learning hanyalah cabang dari machine learning dan machine learning hanyalah cabang dari data science.
Cobalah pikirkan sejenak tentang pertanyaan berikut:
“Jika Data Analyst menggunakan machine learning dalam menganalisa data apakah otomatis menjadi Data Scientist?”
“Apa itu sainsdata (Data science)? Apakah ilmu menganalisa big data dengan AI saja?”
“Apakah benar jika Data Scientist maka Data Analyst?”
Ada sebuah perumpamaan yang mungkin dapat membantu Anda memahami bagaimana sains data bekerja.
1. Ada nelayan yang menangkap banyak sekali ikan.
2. Ikan yang ditangkap terlalu banyaksehingga diperlukan tempat penyimpanan, pengelompokan, dan distribusi ikan.
3. Setelah itu, ikan-ikan yang sudahditangkap tentu perlu dibersihkan dan dimasak dahulu sebelum dimakan.
4. Hasil masakan ikan tersebut bergantungpada kualitas ikan yang ditangkap, peralatan yang digunakan dan juga seberapamahir orang yang memasak dalam mengolah ikan tersebut.
5. Penyajian yang menarik dapat memberikanpersepsi sehingga timbulah rasa kepercayaan.
Sains Data
Sains Data atau data science adalahsuatu ilmu yang mempelajari data mulai dari mengkoleksi, mengarsip,mengelompokkan, mendistribusi data, menyimpan, mengolah, menganalisis,menyajikan. Menggunakan definisi yang sebelumnya pekerjaan tentang sains datadapat dibagi menjadi 5 bagian utama:
a. Koleksi Data