ChartGPT Aplikasi Kecerdasan Buatan Halaman 3

Minerva dapat menjawab pertanyaan seperti: Berapa kelipatan terbesar dari 30 yang kurang dari 520? LLM tampaknya memikirkan langkah-langkahnya, namun yang dilakukannya hanyalah mengubah pertanyaan menjadi urutan token, menghasilkan token berikutnya yang masuk akal secara statistik, menambahkannya ke urutan asli, menghasilkan token lain, dan seterusnya. Sebuah proses yang disebut inferensi.

Peneliti Google menyempurnakan Minerva menjadi tiga ukuran menggunakan model PaLM yang telah dilatih sebelumnya dengan parameter 8 miliar, 62 miliar, dan 540 miliar. Performa Minerva meningkat saat dia bertambah besar. Di seluruh kumpulan data MATH, model terkecil mencapai akurasi 25 persen, model sedang 43 persen, dan model terbesar melebihi 50 persen.

Model terbesar menggunakan jumlah data fine-tuning paling sedikit -- itu disesuaikan dengan hanya menggunakan 26 miliar token, sedangkan model terkecil dianggap 164 miliar token. Namun, model terbesar membutuhkan waktu satu bulan untuk menyempurnakannya, pada perangkat keras khusus yang memiliki kekuatan pemrosesan delapan kali lipat dari model terkecil, yang hanya membutuhkan waktu dua minggu untuk menyempurnakannya. Idealnya, model terbesar harus dicocokkan dengan token yang jauh lebih banyak, maka mungkin akan lebih kuat.

Model Minerva terbesar konsisten dengan hasil dari penelitian yang telah mengungkap hukum penskalaan aturan yang menentukan bagaimana kinerja meningkat dengan ukuran model. Sebuah studi tahun 2020 menunjukkan model bekerja lebih baik ketika memenuhi salah satu dari tiga kondisi: lebih banyak parameter, lebih banyak data pelatihan, atau lebih banyak daya komputasi (jumlah komputasi yang dilakukan selama pelatihan). Performanya meningkat secara eksponensial.

Namun, para peneliti tidak tahu persis mengapa. "Hukumnya murni empiris," kata ilmuwan komputer di University of Montreal dan Quebec Artificial Intelligence Institute. Untuk hasil terbaik, studi tahun 2020 menemukan, ukuran model harus ditingkatkan lima kali lipat dan data pelatihan digandakan. Namun dalam praktiknya, ini berbeda dalam beberapa kasus pada tahun 2022: perusahaan AI yang berbasis di London, DeepMind.

Misalnya, ditemukan pada bulan Maret ketika bekerja pada model dengan ukuran yang berbeda, ditemukan peningkatan ukuran model dan data pelatihan bekerja lebih baik, dan model yang lebih kecil dilatih dengan lebih banyak data memiliki kinerja yang lebih baik daripada model yang lebih besar yang dilatih dengan lebih sedikit data. Misalnya, model Chinchilla DeepMind memiliki 70 miliar parameter dan dilatih dengan 1,4 triliun token, sedangkan model Gopher dengan 280 miliar parameter dilatih dengan 300 miliar token. Chinchilla mengungguli gopher dalam tugas yang dirancang untuk menilai apa yang telah dipelajari LLM.

Ilmuwan Meta Research membangun konsep ini pada Februari 2022, mengembangkan model parameter kecil mereka sendiri yang disebut LLaMA [LaMDA (Language Model for Dialogue Applications), yang dilatih hingga 1,4 triliun token. Versi 13 miliar parameter LLaMA mengungguli GPT-3 prekursor ChatGPT (175 miliar parameter), menurut para peneliti, sedangkan versi 65 miliar parameter mampu bersaing dengan Chinchilla dan bahkan PaLM.

Dan terakhir, Ethan Caballero dari McGill University di Montreal, bersama dengan Rish dan lainnya, melaporkan pada Oktober 2022 menemukan hubungan yang lebih kompleks antara ukuran dan kekuatan. Dalam beberapa kasus, beberapa undang-undang kekuatan dapat mengatur bagaimana skala kinerja dengan ukuran model, tulis para peneliti.

Dalam skenario hipotetis berdasarkan persamaan umum yang mereka temukan, kinerja meningkat secara bertahap pada awalnya dan kemudian lebih cepat dengan ukuran model, tetapi kemudian sedikit menurun karena jumlah parameter terus meningkat, sebelum meningkat lagi. Karakteristik dari hubungan yang kompleks ini bergantung pada spesifikasi masing-masing model dan cara pelatihannya. Harapannya: untuk dapat memprediksi kondisi kerangka kerja ini di masa mendatang ketika LLM tertentu ditingkatkan.

Dan ada wawasan teoretis lain yang mendukung dorongan untuk model yang lebih besar sebuah "hukum ketahanan" untuk pembelajaran mesin, yang diperkenalkan pada tahun 2021 oleh peneliti ahli statistik di Universitas Stanford di California. Sebuah model dianggap kuat jika responsnya tetap konsisten meskipun ada sedikit gangguan pada input. Hal ini diketahui, misalnya, dari pengenalan citra: telah berulang kali ditunjukkan sistem dapat dibingungkan jika hanya beberapa piksel dari suatu citra yang diubah. Orang-orang bahkan tidak akan menyadarinya.

Semakin kuat kecerdasan buatannya, semakin baik ia dapat bereaksi terhadap data baru. Bubeck dan Sellke menunjukkan secara matematis meningkatkan jumlah parameter dalam model meningkatkan ketangguhannya dan karenanya kemampuannya untuk menggeneralisasi. Hukum membuktikan pembesaran diperlukan untuk generalisasi, tetapi pembesaran tidak cukup, kata Bubeck. Meskipun demikian, ini digunakan sebagai pembenaran untuk mengembangkan model yang lebih besar.

HALAMAN :

LIHAT SEMUA

Mohon tunggu...

Lihat Humaniora Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

ChartGPT Aplikasi Kecerdasan Buatan

chartgpt

kecerdasan buatan

llm

ai

humaniora

Artikel Lainnya

LAPORKAN KONTEN

Pemanfaatan Algoritma Kecerdasan Buatan dalam Pengolahan Grid Listrik

Menghadapi Kenyataan Baru: Pekerjaan di Era Otomatis dan Kecerdasan Buatan

Masalah Perkembangan Kecerdasan Buatan (AI) dalam Dunia Seni

Merangkul Kecerdasan Buatan Generatif (GenAI) dalam Risiko Kredit

Urgent, Pendidikan Karakter di Era Kecerdasan Buatan

Miss AI, Mendefinisikan Ulang Kecantikan di Era Kecerdasan Buatan