Sumber data ini bisa berupa database perusahaan, data sosial media, data sensor, atau data publik lainnya. Keterampilan dalam menggunakan SQL dan berbagai alat pengambilan data lainnya sangat penting dalam tahap ini.
2. Pembersihan Data
Data yang dikumpulkan umumnya akan mengandung kesalahan, ketidakkonsistenan, atau bahkan nilai yang hilang secara tiba-tiba. Proses pembersihan data (data cleaning) bertujuan untuk memperbaiki kualitas data agar dapat dianalisis dengan lebih akurat. Kegiatan ini meliputi:
Deteksi outlier: Mengidentifikasi data yang sangat berbeda dari data lainnya.
-
Handling missing values: Mengatasi data yang hilang, misalnya dengan mengisinya atau menghapus data yang bersangkutan.
Normalisasi data: Mengubah data ke dalam skala yang sama agar mudah dibandingkan.
3. Analisis Data
Setelah data dibersihkan, Data Scientist akan melakukan analisis data untuk menemukan pola, trend, dan korelasi yang tersembunyi di dalamnya. Teknik-teknik statistik dan machine learning yang umum digunakan meliputi:
Statistik deskriptif: Menghitung rata-rata, median, modus, dan ukuran dispersi lainnya.
Analisis eksploratori data (EDA): Menjelajahi data secara visual untuk mendapatkan pemahaman yang lebih baik.
Regresi: Membangun model untuk memprediksi nilai numerik.
Klasifikasi: Membangun model untuk mengklasifikasikan data ke dalam kategori tertentu.
Clustering: Mengelompokkan data menjadi beberapa kelompok berdasarkan kesamaan karakteristik.