Kini profesi sebagai Data scientist mulai popular hingga dibahas didalam “Data Scientist:The Sexiest Job of the 21st century” yaitu sebuah artikel dari Harvard Business Review ditulis oleh Thomas H.Davenport and DJ Patil. Karir sebagai Data scientist mulai dicari dimana-mana dengan gaji yang cukup tinggi, ilmu yang terus berkembang dan menjanjikan, dan selalu dicari perusahaan besarterutama sektor teknologi.
Mungkin anda sudah mendengar tentang hal ini sebelumnya, lalu anda mencari tau sendiri tentang karir sebagai data scientist. Namun banyak artikel ataupun website yang menjelaskan karir data scientist secara garis besar saja seperti “Datascientist adalah profesi yang menganalisa data menggunakan machine learning sehingga mendapatkan hasil prediksi atau informasi penting (insight).” Memang tidak salah, namun penjelasan yang terlalu menekankan pada data analytic dan deep learning tanpa mengkupas tuntas ilmu Data Science dapat menimbulkan banyak miskonsepsi.
Contoh miskonsepsi yang banyak adalah data scientist sering disamakan dengan data analyst dan deep learning yang terlalu sering dibahas dan ditekankan sehingga melupakan esensi utama dari seorang data scientist, yaitu memecahkan masalah menggunakan data. Perlu diingat deep learning hanyalah cabang dari machine learning dan machine learning hanyalah cabang dari data science.
Cobalah pikirkan sejenak tentang pertanyaan berikut:
“Jika Data Analyst menggunakan machine learning dalam menganalisa data apakah otomatis menjadi Data Scientist?”
“Apa itu sainsdata (Data science)? Apakah ilmu menganalisa big data dengan AI saja?”
“Apakah benar jika Data Scientist maka Data Analyst?”
Ada sebuah perumpamaan yang mungkin dapat membantu Anda memahami bagaimana sains data bekerja.
1. Ada nelayan yang menangkap banyak sekali ikan.
2. Ikan yang ditangkap terlalu banyaksehingga diperlukan tempat penyimpanan, pengelompokan, dan distribusi ikan.
3. Setelah itu, ikan-ikan yang sudahditangkap tentu perlu dibersihkan dan dimasak dahulu sebelum dimakan.
4. Hasil masakan ikan tersebut bergantungpada kualitas ikan yang ditangkap, peralatan yang digunakan dan juga seberapamahir orang yang memasak dalam mengolah ikan tersebut.
5. Penyajian yang menarik dapat memberikanpersepsi sehingga timbulah rasa kepercayaan.
Sains Data
Sains Data atau data science adalahsuatu ilmu yang mempelajari data mulai dari mengkoleksi, mengarsip,mengelompokkan, mendistribusi data, menyimpan, mengolah, menganalisis,menyajikan. Menggunakan definisi yang sebelumnya pekerjaan tentang sains datadapat dibagi menjadi 5 bagian utama:
a. Koleksi Data
Seperti menangkap ikan, Langkah paling awal dalam sains data adalah mengkoleksi data. Perusahaan harus menentukan apa yang ingin dicapai dari pengumpulan data dan bagaimana data tersebut dapat digunakan untuk mengambil keputusan yang lebih baik.
b. Infrastruktur Data
Ketika ikan yang ditangkap begitu banyak, maka perlu dipikirkan tentang penyimpanan dan distribusi ikan. Begitupun juga dengan sains data, Jika data yang dikumpulkan mencapai lebih dari 1 TB, maka data tersebut sudah tergolong sebagai big data sehingga diperlukan tempat penyimpanan data yang terstruktur dan sistem manajemen data yang baik. Data engineer dan software engineer akan merancang dan membangun infrastruktur teknologi yang tepat untuk memenuhi kebutuhan tersebut.
c. Mengolah Data
Seperti membersihkan ikan sebelum dimasak, Membersihkan data merupakan proses yang dibilang cukup melelahkan. Dalam dunia nyata, hampir semua data yang dikumpulkan pasti ada sesuatu bermasalah Data yang sudah bersih akan siap digunakan untuk proses berikutnya.
d. Analisis Data
Sekarang kemampuan memasak ikan akan diuji, Data tersebut umumnya akan dioptimasi seperti Feature Engineering dan Transformasi untuk model: Data scientist akan memproses data tersebut dengan mengembangkan fitur baru dari data sebelumnya (feature engineering) dengan harapan model dari machine learning dapat memprediksi lebih akurat. Setelah itu, format data akan diubah bentuk (transformasi) agar dapat diproses lebih lanjut di dalam model machine learning.
Modeling dan Pengambilan Kesimpulan: Setelah data sudah diproses dan diubah, datascientist akan mengaplikasikan model untuk data tersebut. Contoh umum model yang digunakan adalah Esemble, RandomForest, Regresi, Klasifikasi, dan Klastering. Hasil prediksi dari model ini akan diuji terlebih dahulu seperti menggunakan A/B testing, metrics (Mean Absolute Error, Precision, F1 score dll.) dan jika sudah lolos uji maka akan digunakan sebagai pertimbangan mengambil kesimpulan dan membuat keputusan yang lebih baik berdasarkan data.
e. Penyajian Data
Seperti masakan yang menarik, lebih mudah mendapatkan kepercayaan daripada yang tidak menarik. Setelah data sudah dianalisis, perusahaan perlu mempresentasikan hasil analisis tersebut dalam bentuk yang mudah dipahami oleh berbagai pihak, seperti manajemen, investor, dan karyawan. Beberapa cara penyajian data yang umum digunakan adalah menggunakan dashboard, laporan, visualisasi data seperti diagram, grafik, histogram, dan tabel, dan lain-lain.
Komposisi Tim Data Science
Mengingat banyak sekali yang harusdilakukan dalam sains data, pada umumnya perusahaan akan membagi tugas tersebutpada berikut:
- Data Collector (Koleksi Data)
- Data Engineer & Software Engineer(Infrastruktur Data)
- Data Scientist Analytic (Mengolah,Menganalisis, Penyajian Data)
- Data Scientist Core/Researcher (AI,Machine Learning)
Namun dalam perusahan kecil tertentu yang memiliki karyawan terbatas, tidak jarang data scientist diberikan tugas dalam KoleksiData, Infrastruktur Data dan Mengolah, Menganalisis, Penyajian Data sekaligus. Selain itu, untuk posisi Data Scientist Core/Researcher umumnya hanya tersedia di perusahaan besar dan memiliki pesyaratan tingkat pendidikan relatif tinggi(S-2/S-3) ataupun pengalaman kerja yang relatif lama.
Sekarang saya ingin menanyakan sesuatu, siapakah “Data Scientist” bagi anda?
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H