Sebuah solusi inovatif kini muncul melalui artikel ilmiah yang diterbitkan oleh Vijay Shankar Sharma dan tim, yang berjudul "A Dynamic Repository Approach for Small File Management With Fast Access Time on Hadoop Cluster: Hash Based Extended Hadoop". Dalam artikel yang diterbitkan oleh IEEE pada tahun 2022 ini, mereka menawarkan pendekatan baru yang memungkinkan manajemen file kecil menjadi jauh lebih efisien di lingkungan Hadoop Cluster.
Menurut laporan Gartner pada tahun 2020, lebih dari 50% perusahaan yang menggunakan Hadoop menghadapi tantangan performa dalam menangani file kecil. Masalah ini terutama disebabkan oleh manajemen metadata dan replikasi yang menjadi beban besar pada sistem. Dalam sistem HDFS, setiap file, tak peduli ukurannya, mendapatkan alokasi blok penyimpanan yang sama, menyebabkan ketidakseimbangan antara ukuran file kecil dengan overhead penyimpanan.
Pendekatan yang diperkenalkan Sharma dan tim ini menggunakan teknologi berbasis hash dinamis untuk menyatukan file-file kecil ke dalam blok yang lebih besar secara efisien. Dengan metode ini, overhead penyimpanan dan pengelolaan metadata dapat diminimalkan secara signifikan, yang pada akhirnya meningkatkan kinerja sistem Hadoop secara keseluruhan.