Di tengah kompleksitas tantangan yang dihadapi oleh masyarakat modern, machine learning(ML) telah muncul sebagai alat yang kuat untuk memprediksi dan menyelesaikan berbagai permasalahan yang beragam. Dari pengelolaan kesehatan, transportasi perkotaan, hingga lingkungan, kemampuan machine learning untuk mengolah banyak data telah membuka pintu menuju solusi yang murah, efisien, dan inovatif.
 Setiap algoritma machine learning mempunyai cara kerja masing-masing dalam mengolah data. Berikut macam-macam algoritma dari ML:
1. Support vector regression (SVR)
Teknik support vector regression (SVR) adalah machine learning yang pertama kali diperkenalkan oleh Vapnik dkk. (1997) dan dapat melakukan tugas klasifikasi dan regresi. SVR berasal dari teori pembelajaran statistik dan telah terbukti menjadi metode yang kuat.
Dalam model SVR pertama-tama, ketergantungan variabel target (y^) pada satu set variabel prediktif (x) dinilai, kemudian fungsi regresi diperoleh dengan menggunakan persamaan berikut:
2. Decision tree regression (DTR)
Algoritma DTR beroperasi dengan mengekstraksi fitur dari dataset tertentu dan mengaturnya dalam struktur berbentuk pohon simbolis dengan simpul internal dan terminal yang masing-masing mewakili pemisahan dan daun. Sebuah pohon dibentuk dengan menerapkan serangkaian aturan dasar. Dengan menggabungkan beberapa pohon, terciptalah seperangkat aturan yang dapat digunakan dalam tahap prediksi.
Pertama-tama, dataset pelatihan digunakan untuk membangun sebuah pohon; kemudian algoritma memisahkan data asli menjadi dua cabang dengan menggunakan prosedur pemisahan biner. Proses pemisahan ini kemudian diterapkan pada cabang-cabang baru yang tumbuh dan berlanjut hingga setiap cabang tidak dapat dipisahkan, dan simpul yang bersangkutan mencapai ukuran minimum dan menjadi simpul terminal.
Fitur yang paling menonjol dari DTR dibandingkan dengan model lainnya adalah fakta bahwa aturannya mudah untuk ditafsirkan dan mengikuti pola logis yang digambarkan dalam format pohon. Meskipun lebih cepat daripada model AI lainnya, DTR tidak menghasilkan hasil yang akurat dengan adanya nonlinieritas atau set data yang berisik dan sering kali tidak sesuai untuk masalah deret waktu
3. Extra tree regression (ETR)
Teknik extra tree regression (ETR), yang diusulkan oleh Geurts dkk., merupakan algoritma pembelajaran ansambel berbasis pohon yang baru. ETR pada awalnya diturunkan dari model random forest (RF) untuk melakukan tugas regresi atau klasifikasi menggunakan beberapa pohon keputusan gabungan.
Model RF menggunakan dua langkah bootstrapping dan bagging untuk menjalankan tugas regresi. Pada langkah bootstrapping. Ansambel pohon keputusan dibentuk dengan menumbuhkan setiap pohon menggunakan sampel aak training dataset. Setelah mendapat ansambel, langkah selanjutnya adalah bagging step. Pada tahap awal bagging, beberapa subset acak dari data pelatihan dipilih. Kemudian subset terbaik dan nilai yang sesuai dipilih untuk menyelesaikan prosedur pemisahan keputusan.
Algoritma ETR adalah perluasan yang sangat acak dari RF, dengan dua perbedaan utama. Pertama, alih-alih menggunakan subset dari dataset pelatihan untuk pengambilan sampel bootstrap, ETR menggunakan seluruh dataset pelatihan untuk menumbuhkan pohon keputusan dalam ansambel. Kedua, pada tahap pemisahan, alih-alih memilih fitur yang paling baik dari nominasi, fitur terbaik dipilih secara acak bersama dengan nilai yang sesuai untuk menjalankan proses pemisahan node. Untuk menyelesaikan tahap ini, dua parameter, k (jumlah fitur yang dipilih secara acak di setiap node) dan nmin (ukuran sampel minimum yang dibutuhkan untuk pemisahan node) ditentukan. Fitur-fitur ini membuat model ETR menjadi lebih akurat dan tidak mudah mengalami overfitting.
Setiap algoritma memang memiliki kelebihan dan kekurangannya. Pada suatu riset yang dilakukan di Sungai Lam Tsuen di Hongkong, menyelidiki ketiga algoritma di atas untuk memprediksi WQI bulanan di sungai tersebut. WQI (water quality indeks) adalah indikator yang umum digunakan untuk mengklasifikasi kualitas air permukaan. Dengan menggunakan 10 parameter input, menunjukkan bahwa model ETR memiliki kinerja terbaik, dilanjutkan model SVR memiliki kinerja yang mendekati ETR, sedangkan model DTR memiliki kinerja yang paling rendah. Uniknya, model ETR dapat memiliki kinerja prediksi yang mendekati kinerja dengan 10 parameter input hanya dengan menggunakan 3 parameter input, yaitu BOD, kekeruhan, dan fosfat. Jadi berdasarkan riset tersebut, kualitas air dapat diprediksi dengan menggunakan algoritma machine learning.
Suatu daerah yang memiliki kualitas air yang buruk dapat memanfaatkan machine learning untuk memprediksi kualitas air sehingga nantinya permasalahan tersebut dapat diselesaikan dengan lebih mudah. Apalagi di kota-kota besar di Indonesia, seperti Jakarta, machine learning akan sangat berpengaruh pada lingkungan dan kesehatan masyarat sekitar.
Sumber : https://www.sciencedirect.com/science/article/pii/S2213343720309489
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H