Data Provenance Explorer: Solusi untuk Masalah Lisensi Dataset
Artikel yang ditulis oleh Shayne Longpre, Robert Mahari, Anthony Chen, dan kolaborator lainnya berjudul "A large-scale audit of dataset licensing and attribution in AI" (Nature Machine Intelligence, Volume 6, Agustus 2024) menggarisbawahi tantangan besar dalam lisensi dataset dan atribusi data di bidang kecerdasan buatan (AI). Artikel ini sangat relevan dalam era di mana AI semakin berkembang dengan memanfaatkan data dalam jumlah besar. Namun, data yang digunakan sering kali kurang transparan, tidak terdokumentasi dengan baik, atau bahkan tidak memiliki lisensi yang jelas. Penelitian ini mengaudit lebih dari 1.800 dataset teks, mengungkapkan bahwa sekitar 70% dari lisensi yang ada di platform populer seperti GitHub dan Hugging Face tidak ditentukan dengan jelas. Bahkan, lebih dari 50% lisensi yang teridentifikasi salah dikategorikan.
Krisis ini berdampak langsung pada komunitas AI, terutama dalam hal keabsahan penggunaan data untuk melatih model pembelajaran mesin. Kekurangan dalam dokumentasi lisensi tidak hanya meningkatkan risiko hukum, tetapi juga berpotensi menyebabkan pelanggaran etika dan privasi. Ketika model AI dilatih dengan data yang tidak jelas asal-usulnya, risiko seperti kebocoran data dan bias yang tidak disengaja menjadi semakin nyata. Artikel ini memberikan kontribusi signifikan dengan menawarkan alat bernama Data Provenance Explorer untuk membantu pengguna menelusuri asal-usul dan lisensi dataset yang digunakan dalam AI.
Para penulis juga mengidentifikasi adanya pembagian yang tajam dalam komposisi dan fokus data berdasarkan jenis lisensi, di mana data yang lebih terbuka untuk penggunaan komersial sering kali terbatas pada sumber bahasa yang tinggi dan data umum, sementara bahasa dengan sumber daya rendah cenderung dilindungi oleh lisensi yang lebih ketat.
***
Â
Penelitian ini menggunakan pendekatan audit skala besar terhadap lebih dari 1.800 dataset yang digunakan dalam pelatihan model AI. Para peneliti menggabungkan analisis manual dan otomatis untuk menelusuri lisensi, asal-usul, dan atribusi dataset. Mereka melibatkan pakar hukum dan pembelajaran mesin untuk mengkategorikan dataset berdasarkan lisensinya dan memastikan setiap dataset di-trace kembali ke sumbernya. Selain itu, mereka menggunakan alat otomatis untuk mengumpulkan metadata dari berbagai agregator dataset seperti GitHub, Hugging Face, dan Papers with Code. Hasilnya, mereka menciptakan alat bernama Data Provenance Explorer, yang memungkinkan pengguna untuk menelusuri dan memfilter dataset berdasarkan lisensi, sumber data, dan informasi atribusi.
Salah satu teori utama yang mendukung penelitian ini adalah teori data provenance, yang menekankan pentingnya melacak asal-usul data untuk memastikan penggunaan yang sah dan transparan. Data provenance membantu memastikan bahwa data yang digunakan untuk melatih model AI memenuhi ketentuan lisensi, sehingga mengurangi risiko pelanggaran hukum dan etika. Artikel ini mendalami bagaimana transparansi dalam penggunaan data dapat memitigasi risiko-risiko tersebut.
Teori etika data juga berperan penting dalam penelitian ini. Penggunaan dataset tanpa atribusi yang jelas, atau dataset yang dilisensikan dengan cara yang tidak konsisten, menimbulkan masalah etika dalam pengembangan AI. Risiko ini termasuk pelanggaran hak cipta dan kebocoran informasi pribadi (PII) yang dapat terjadi ketika dataset tidak diolah dan didokumentasikan dengan benar. Etika dalam penggunaan data semakin penting karena model AI saat ini menggunakan data dalam skala besar, yang sering kali dikumpulkan tanpa izin atau dokumentasi yang memadai.
Terakhir, teori lisensi terbuka dan tertutup berperan dalam membedakan jenis dataset yang tersedia untuk penggunaan komersial dan non-komersial. Penelitian ini mengungkapkan adanya ketidakmerataan antara dataset yang lebih terbuka untuk penggunaan komersial (biasanya dari bahasa yang lebih tinggi sumber daya) dan dataset yang lebih tertutup (biasanya dari bahasa sumber daya rendah). Penulis menunjukkan bahwa lisensi tertutup ini membatasi akses ke data kreatif dan inovatif, yang dapat menghambat pengembangan AI yang lebih inklusif dan adil.
Penelitian ini memberikan kontribusi signifikan dengan melakukan audit dataset berskala besar yang mengidentifikasi masalah lisensi dan atribusi data yang tidak memadai dalam komunitas AI. Dengan memperkenalkan Data Provenance Explorer, penelitian ini tidak hanya menyediakan alat untuk menelusuri asal-usul dataset, tetapi juga menawarkan standar dan panduan bagi pengembang dan peneliti untuk memilih data yang sesuai dengan kondisi hukum dan etika. Hal ini membantu meningkatkan transparansi dan akuntabilitas dalam penggunaan dataset, serta mendorong praktik AI yang lebih bertanggung jawab.