8. Proses Pembersihan Data: Outliers - Percentile
Data outlier dipertimbangkan agar dapat dipahami jika data tersebut mungkin memiliki nilai yang terlalu jauh dari median.
9. Proses Pembersihan Data: Outliers - Skewness
Kemiringan (skewness) disebut sebagai kekurangan simetri. Suatu distribusi atau kumpulan data dapat dikatakan simetris jika terlihat sama pada bagian kiri dan kanan titik tengah.
10. Proses Pembersihan Data: Outliers - Kurtosis
Kurtosis adalah ukuran apakah data heavy-tailed atau light-tailed terhadap distribusi normal. Kumpulan data dengan kurtosis tinggi cenderung memiliki outlier.
11. Analisis Perilaku Data: Fitur - Korelasi (Pearson)
Fitur - Korelasi Pearson mengukur kekuatan hubungan linier antara dua variabel yang bernilai antara -1 sampai 1. Nilai -1 berarti korelasi linear negatif, 0 berarti tidak ada korelasi, dan +1 berarti korelasi linear positif.Â
Pemodelan Data dan Evaluasi Model
Pemodelan data dan evaluasi model menggunakan machine learning yang terdiri dari supervised learning dan unsupervised learning. Supervised learning dan unsupervised learning memiliki parameter masing-masing, diantaranya seperti process, input data, dan algorithms. Alur kerja machine learning dimulai dari pengumpulan data, pengolahan data, dan dilanjutkan dengan pemodelan data. Contoh pemodelan data adalah pemisahan dan uji data, pemilihan klasifikasi algoritma, dan pembuatan model dan prediksi. Pemodelan data dengan pemisahan dan uji data artinya memisahkan data menjadi data uji yang berguna untuk mengevaluasi kinerja machine learning dan mencegah overfitting. Pemodelan data dengan pemilihan klasifikasi algoritma dapat menggunakan Model Support Vector Machine (SVM). Setelah melakukan pemodelan data, hal yang akan dilakukan setelahnya adalah evaluasi model. Contoh evaluasi model seperti confusion matrix, evaluation metrics, dan result and select the best model. Evaluasi model dengan confusion matrix menggunakan tabel yang digunakan untuk mendefinisikan kinerja dari klasifikasi algoritma. Evaluasi model dengan evaluation metrics terdiri dari akurasi dan presisi yang memiliki definisi dan formulanya masing-masing. Sedangkan, evaluasi model dengan result and select the best model memilih model terbaik setelah masing-masing model dievaluasi berdasarkan kriteria yang dibutuhkan. Setelah proses evaluasi model selesai maka hal yang dilakukan selanjutnya adalah melakukan penyebaran (deployment).Â
Lulusan Akuntansi Harus Belajar Data Analitik?