Meningkatkan Akurasi Rekomendasi Akademik dengan Clustering dan Deep Learning
Sistem rekomendasi (RS) telah menjadi bagian integral dari dunia digital saat ini, membantu pengguna menavigasi sejumlah besar informasi yang tersedia. Dalam bidang akademik, RS memainkan peran penting dalam membantu peneliti menemukan publikasi ilmiah yang relevan. Namun, meskipun banyak penelitian telah dilakukan, ada kesenjangan yang signifikan antara pendekatan RS yang ada dalam literatur dan kebutuhan praktis dunia nyata. Kesenjangan ini semakin terlihat ketika mempertimbangkan dataset akademik yang sangat besar, dengan jutaan publikasi dan pengguna. Dalam konteks ini, artikel berjudul "An academic recommender system on large citation data based on clustering, graph modeling and deep learning" yang ditulis oleh Vaios Stergiopoulos, Michael Vassilakopoulos, Eleni Tousidou, dan Antonio Corral (2024), menawarkan solusi inovatif untuk menangani tantangan ini. Artikel ini memaparkan sistem rekomendasi multi-tahap yang menggabungkan teknik clustering, pemodelan graf, dan deep learning untuk memproses dataset besar. Dengan menggunakan dataset AMiner yang terdiri dari lebih dari 5,3 juta publikasi dan 48 juta relasi sitasi, sistem ini mampu memberikan rekomendasi yang lebih akurat dan relevan. Pada tahap evaluasi, sistem ini menunjukkan peningkatan kinerja, khususnya dalam metrik recall dan Normalized Discounted Cumulative Gain (NDCG), yang merupakan indikator penting dalam menilai efektivitas sistem rekomendasi. Inovasi ini merupakan langkah maju dalam upaya menjembatani kesenjangan antara penelitian akademik dan aplikasi praktis di dunia nyata, khususnya dalam konteks dataset akademik yang sangat besar dan kompleks.
***
Sistem rekomendasi yang dibahas oleh Stergiopoulos et al. (2024) menawarkan beberapa keunggulan yang menjadikannya solusi efektif untuk menangani dataset akademik besar. Dalam artikel ini, sistem dikembangkan menggunakan kombinasi clustering, pemodelan graf, dan deep learning, yang memungkinkan sistem untuk memproses data dalam skala yang jauh lebih besar dibandingkan dengan sistem tradisional. Misalnya, dengan menggunakan dataset AMiner yang memiliki 5,3 juta publikasi dan 48,2 juta relasi sitasi, sistem ini mampu menjalankan pemrosesan data secara efektif. Ini adalah pencapaian signifikan, mengingat bahwa kebanyakan sistem rekomendasi akademik hanya dapat memproses beberapa ribu pengguna atau item. Dengan pendekatan multi-tahap yang diperkenalkan, sistem ini tidak hanya dapat memproses volume data yang besar tetapi juga meningkatkan kualitas rekomendasi.
Salah satu inovasi utama dari sistem ini adalah penggunaan clustering berbasis bidang studi (Field of Study/FOS). Dengan membangun graf berbobot yang menghubungkan berbagai bidang studi melalui keterkaitan publikasi, sistem ini dapat mengelompokkan publikasi berdasarkan tema yang saling berkaitan. Dengan demikian, sistem dapat memberikan rekomendasi yang lebih relevan berdasarkan minat peneliti, tanpa mengorbankan keanekaragaman pilihan. Ini penting, terutama ketika mempertimbangkan bahwa dalam lingkungan akademik, peneliti sering kali tertarik pada publikasi dari bidang-bidang yang terkait erat tetapi berbeda. Dengan kemampuan untuk mengidentifikasi keterkaitan ini, sistem dapat memperluas spektrum rekomendasi tanpa mengurangi relevansi.
Lebih jauh, dengan menggabungkan deep learning melalui model autoencoder, sistem ini mampu menangkap pola nonlinear yang kompleks antara pengguna dan publikasi. Hal ini sangat relevan dalam konteks akademik, di mana hubungan antara peneliti dan publikasi tidak selalu bersifat linier. Misalnya, seorang peneliti yang bekerja dalam bidang ilmu komputer mungkin juga tertarik pada penelitian dalam bidang matematika atau statistik, yang sering kali berkaitan dengan metodologi komputasi. Dengan kemampuan deep learning untuk memahami pola-pola ini, sistem rekomendasi yang diperkenalkan oleh Stergiopoulos et al. (2024) dapat memberikan hasil yang lebih tepat dan mendalam.
Pada tahap evaluasi, sistem ini menunjukkan peningkatan yang signifikan dalam metrik recall dan NDCG. Recall, yang menunjukkan seberapa banyak item relevan yang berhasil direkomendasikan, meningkat sekitar 2% dalam uji coba dataset citeulike-a, salah satu dataset yang digunakan dalam penelitian. Ini menunjukkan bahwa sistem berhasil menangani masalah klasik seperti "cold start" dan data sparsity, yang sering menjadi hambatan dalam sistem rekomendasi lainnya. Hasil ini menegaskan bahwa dengan pengaturan hyper-parameter yang tepat, seperti pemilihan fungsi aktivasi SineReLU dan inisialisasi bobot HeNormal, sistem dapat mencapai kinerja yang optimal bahkan pada dataset yang besar dan kompleks.
***
Dari analisis artikel oleh Stergiopoulos et al. (2024), jelas bahwa inovasi dalam sistem rekomendasi akademik yang mereka tawarkan memberikan solusi signifikan terhadap tantangan pengelolaan dataset besar. Dengan menggabungkan teknik clustering, pemodelan graf, dan deep learning, mereka mampu menciptakan sistem yang efisien, relevan, dan akurat. Peningkatan recall hingga 2% serta kemampuan untuk memproses lebih dari 5 juta publikasi menempatkan sistem ini di garis depan penelitian akademik modern. Keberhasilan sistem ini juga memberikan bukti kuat bahwa dengan tuning hyper-parameter yang tepat, kinerja sistem rekomendasi dapat ditingkatkan secara signifikan. Secara keseluruhan, sistem ini berpotensi besar untuk diadopsi lebih luas di berbagai perpustakaan digital akademik, dan dapat menjadi fondasi bagi pengembangan lebih lanjut dalam bidang rekomendasi ilmiah.
Referensi
Stergiopoulos, V., Vassilakopoulos, M., Tousidou, E., & Corral, A. (2024). An academic recommender system on large citation data based on clustering, graph modeling and deep learning. Knowledge and Information Systems, 66, 4463--4496. https://doi.org/10.1007/s10115-024-02094-7
Baca konten-konten menarik Kompasiana langsung dari smartphone kamu. Follow channel WhatsApp Kompasiana sekarang di sini: https://whatsapp.com/channel/0029VaYjYaL4Spk7WflFYJ2H