Percepatan Pelatihan Model Prediksi hingga 1000 Kali Lipat: Potensi Besar untuk Bisnis Modern
Pada era digital saat ini, kebutuhan akan pemantauan prediktif menjadi semakin penting bagi keberhasilan organisasi dalam mengelola proses bisnis yang dinamis. Proses prediktif memungkinkan perusahaan untuk membuat keputusan yang lebih baik dan responsif dengan memprediksi perilaku masa depan dari berbagai instansi proses yang sedang berjalan. Namun, ada tantangan signifikan yang dihadapi dalam penerapan pemantauan prediktif, yaitu tingginya biaya komputasi yang diperlukan untuk melatih model prediktif yang akurat. Artikel berjudul Performance-preserving event log sampling for predictive monitoring yang ditulis oleh Mohammadreza Fani Sani, Mozhgan Vazifehdoostirani, Gyunam Park, Marco Pegoraro, Sebastiaan J. van Zelst, dan Wil M. P. van der Aalst serta diterbitkan pada tahun 2023 di Journal of Intelligent Information Systems, menawarkan solusi inovatif dalam mengatasi tantangan ini. Dengan menggunakan metode sampling log yang mempertahankan kinerja (performance-preserving), penelitian ini menyajikan prosedur seleksi instance yang mampu mengurangi waktu pelatihan model prediksi hingga beberapa kali lipat tanpa mengurangi akurasi prediksi. Metode ini diimplementasikan dan dievaluasi menggunakan tiga dataset nyata dari domain yang berbeda, yaitu keuangan, pemerintah, dan kesehatan, sehingga menunjukkan penerapannya yang luas dalam berbagai skenario bisnis. Salah satu keunggulan signifikan yang disebutkan adalah peningkatan kecepatan pelatihan sebesar 50 kali lipat saat menggunakan metode pembagian logaritmik (logarithmic distribution) pada dataset dengan ukuran besar seperti RTFM Event Log. Artikel ini membuka wawasan baru dalam penelitian pemantauan prediktif, yang diharapkan dapat memfasilitasi adopsi yang lebih luas dari metode ini di industri dengan berbagai keterbatasan sumber daya, seperti pada perusahaan kecil dan menengah (UMKM).
***
Metode sampling yang diajukan oleh Fani Sani et al. (2023) memecahkan salah satu permasalahan mendasar dalam pemantauan prediktif, yaitu waktu pelatihan model yang sangat lama. Masalah ini sering kali membuat penerapan metode machine learning tidak layak digunakan di banyak situasi nyata. Menggunakan teknik pemilihan instance yang cerdas, penelitian ini mampu mempertahankan tingkat akurasi prediksi yang tinggi, bahkan saat ukuran dataset yang dilatih dikurangi secara signifikan. Misalnya, pada dataset BPIC-2012-W, penelitian ini menunjukkan bahwa dengan menggunakan metode pembagian (division method), waktu pelatihan dapat dikurangi hingga 4 kali lipat, tanpa menurunkan akurasi secara signifikan (akurasi relatif mendekati 1,0 atau sama dengan model menggunakan seluruh dataset). Selain itu, pada kasus prediksi waktu tersisa (remaining time prediction), metode ini mampu menjaga Mean Absolute Error (MAE) tetap rendah, dengan MAE berkisar antara 0,9 hingga 1,1 kali MAE dari model yang dilatih menggunakan seluruh dataset.
Penelitian ini juga menyoroti keefektifan metode sampling berdasarkan karakteristik varian, yang memperhitungkan distribusi frekuensi dari aktivitas dalam data log. Pada dataset RTFM Event Log, yang memiliki varian aktivitas yang sangat bervariasi, penggunaan metode pembagian logaritmik (misalnya, log10) menghasilkan peningkatan kecepatan pelatihan hingga 1000 kali lipat. Ini sangat penting, mengingat data log ini mencakup proses dengan aktivitas yang bervariasi dan periode waktu yang panjang. Metode ini juga menunjukkan bahwa dengan hanya menggunakan sebagian kecil dari data, yaitu sekitar 0,1% dari keseluruhan data, masih dapat menjaga Root Mean Squared Error (RMSE) pada kisaran yang dapat diterima, yaitu sekitar 1,2 kali RMSE dari model lengkap.
Penelitian ini memberikan kontribusi besar pada penerapan machine learning dalam proses bisnis yang dinamis, terutama pada skenario dengan keterbatasan sumber daya. Ketika diimplementasikan pada sistem pemantauan proses di sektor pemerintah, metode ini menunjukkan peningkatan yang signifikan dalam efisiensi pengelolaan sumber daya manusia. Misalnya, prediksi waktu tunggu pasien di rumah sakit dapat dilakukan lebih cepat, memungkinkan pengalokasian staf dan sumber daya dengan lebih efektif. Penerapan dalam domain keuangan juga tidak kalah pentingnya, di mana model prediksi dapat memberikan informasi lebih cepat tentang aktivitas pelanggan yang memiliki potensi risiko tinggi, seperti aktivitas yang dapat mengindikasikan potensi fraud atau kecurangan. Dengan metode sampling yang diterapkan, proses pelatihan model di sektor keuangan dapat ditingkatkan hingga 20 kali lipat lebih cepat, tanpa kehilangan sensitivitas dalam mendeteksi pola risiko.
Secara keseluruhan, penelitian ini memberikan solusi yang praktis dan efektif dalam mempercepat proses pelatihan model prediksi. Dengan metode yang inovatif ini, perusahaan dapat beralih dari fokus pada optimalisasi kecepatan komputasi yang mahal ke arah strategi sampling data yang lebih efisien, tanpa perlu mengorbankan akurasi prediksi yang menjadi aspek kritikal dalam pengambilan keputusan bisnis.
***
Penelitian yang dilakukan oleh Fani Sani et al. (2023) telah memberikan kontribusi yang signifikan dalam bidang pemantauan proses prediktif, terutama dengan menawarkan metode sampling yang mampu meningkatkan kecepatan pelatihan model prediksi tanpa menurunkan tingkat akurasi. Artikel ini membuktikan bahwa strategi pemilihan instance yang mempertimbangkan karakteristik data log dapat memberikan hasil yang efisien, dengan peningkatan kecepatan hingga 1000 kali lipat pada kasus tertentu seperti RTFM Event Log. Hal ini menjadikan metode ini sangat relevan dan aplikatif untuk diterapkan di berbagai domain, mulai dari sektor pemerintahan, keuangan, hingga kesehatan.
Namun, tantangan selanjutnya yang perlu diperhatikan adalah penerapan metode ini pada skenario data log yang terus berkembang seiring dengan perubahan proses bisnis, yang sering disebut sebagai concept drift. Oleh karena itu, penelitian lanjutan diperlukan untuk mengintegrasikan metode sampling ini dengan teknik prediksi yang adaptif, sehingga dapat mengakomodasi perubahan-perubahan tersebut tanpa perlu pelatihan ulang yang memakan waktu dan biaya. Secara keseluruhan, artikel ini berhasil menunjukkan bahwa melalui pemilihan instance yang tepat, perusahaan dapat menghemat sumber daya komputasi secara signifikan, sekaligus memastikan model prediksi tetap responsif dan akurat. Dengan demikian, penelitian ini tidak hanya berdampak pada efisiensi teknis, tetapi juga memberikan nilai tambah strategis bagi organisasi dalam mengelola proses bisnis secara lebih efektif dan efisien.
Referensi
Fani Sani, M., Vazifehdoostirani, M., Park, G., Pegoraro, M., van Zelst, S. J., & van der Aalst, W. M. P. (2023). Performance-preserving event log sampling for predictive monitoring. Journal of Intelligent Information Systems, 61(1), 53-82. https://doi.org/10.1007/s10844-022-00775-9