Mohon tunggu...
APOLLO_ apollo
APOLLO_ apollo Mohon Tunggu... Dosen - Lyceum, Tan keno kinoyo ngopo

Aku Manusia Soliter, Latihan Moksa

Selanjutnya

Tutup

Humaniora Pilihan

ChartGPT Aplikasi Kecerdasan Buatan

30 April 2023   09:48 Diperbarui: 30 April 2023   09:58 606
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Bagikan ide kreativitasmu dalam bentuk konten di Kompasiana | Sumber gambar: Freepik

Minerva dapat menjawab pertanyaan seperti: Berapa kelipatan terbesar dari 30 yang kurang dari 520? LLM tampaknya memikirkan langkah-langkahnya, namun yang dilakukannya hanyalah mengubah pertanyaan menjadi urutan token, menghasilkan token berikutnya yang masuk akal secara statistik, menambahkannya ke urutan asli, menghasilkan token lain, dan seterusnya. Sebuah proses yang disebut inferensi.

Peneliti Google menyempurnakan Minerva menjadi tiga ukuran menggunakan model PaLM yang telah dilatih sebelumnya dengan parameter 8 miliar, 62 miliar, dan 540 miliar. Performa Minerva meningkat saat dia bertambah besar. Di seluruh kumpulan data MATH, model terkecil mencapai akurasi 25 persen, model sedang 43 persen, dan model terbesar melebihi 50 persen.

Model terbesar   menggunakan jumlah data fine-tuning paling sedikit -- itu disesuaikan dengan hanya menggunakan 26 miliar token, sedangkan model terkecil dianggap 164 miliar token. Namun, model terbesar membutuhkan waktu satu bulan untuk menyempurnakannya, pada perangkat keras khusus yang memiliki kekuatan pemrosesan delapan kali lipat dari model terkecil, yang hanya membutuhkan waktu dua minggu untuk menyempurnakannya. Idealnya, model terbesar harus dicocokkan dengan token yang jauh lebih banyak, maka mungkin akan lebih kuat.

Model Minerva terbesar konsisten dengan hasil dari penelitian yang telah mengungkap hukum penskalaan aturan yang menentukan bagaimana kinerja meningkat dengan ukuran model. Sebuah studi tahun 2020 menunjukkan   model bekerja lebih baik ketika memenuhi salah satu dari tiga kondisi: lebih banyak parameter, lebih banyak data pelatihan, atau lebih banyak daya komputasi (jumlah komputasi yang dilakukan selama pelatihan). Performanya meningkat secara eksponensial.

Namun, para peneliti tidak tahu persis mengapa. "Hukumnya murni empiris," kata ilmuwan komputer di University of Montreal dan Quebec Artificial Intelligence Institute. Untuk hasil terbaik, studi tahun 2020 menemukan, ukuran model harus ditingkatkan lima kali lipat dan data pelatihan digandakan. Namun dalam praktiknya, ini berbeda dalam beberapa kasus pada tahun 2022: perusahaan AI yang berbasis di London, DeepMind.

Misalnya, ditemukan pada bulan Maret ketika bekerja pada model dengan ukuran yang berbeda, ditemukan   peningkatan ukuran model dan data pelatihan bekerja lebih baik, dan   model yang lebih kecil dilatih dengan lebih banyak data memiliki kinerja yang lebih baik daripada model yang lebih besar yang dilatih dengan lebih sedikit data. Misalnya, model Chinchilla DeepMind memiliki 70 miliar parameter dan dilatih dengan 1,4 triliun token, sedangkan model Gopher dengan 280 miliar parameter dilatih dengan 300 miliar token. Chinchilla mengungguli gopher dalam tugas yang dirancang untuk menilai apa yang telah dipelajari LLM.

Ilmuwan Meta Research membangun konsep ini pada Februari 2022, mengembangkan model parameter kecil mereka sendiri yang disebut LLaMA [LaMDA (Language Model for Dialogue Applications), yang dilatih hingga 1,4 triliun token. Versi 13 miliar parameter LLaMA mengungguli GPT-3 prekursor ChatGPT (175 miliar parameter), menurut para peneliti, sedangkan versi 65 miliar parameter mampu bersaing dengan Chinchilla dan bahkan PaLM. 

Dan terakhir, Ethan Caballero dari McGill University di Montreal, bersama dengan Rish dan lainnya, melaporkan pada Oktober 2022    menemukan hubungan yang lebih kompleks antara ukuran dan kekuatan. Dalam beberapa kasus, beberapa undang-undang kekuatan dapat mengatur bagaimana skala kinerja dengan ukuran model, tulis para peneliti.

Dalam skenario hipotetis berdasarkan persamaan umum yang mereka temukan, kinerja meningkat secara bertahap pada awalnya dan kemudian lebih cepat dengan ukuran model, tetapi kemudian sedikit menurun karena jumlah parameter terus meningkat, sebelum meningkat lagi. Karakteristik dari hubungan yang kompleks ini bergantung pada spesifikasi masing-masing model dan cara pelatihannya. Harapannya: untuk dapat memprediksi kondisi kerangka kerja ini di masa mendatang ketika LLM tertentu ditingkatkan.

Dan ada wawasan teoretis lain yang mendukung dorongan untuk model yang lebih besar   sebuah "hukum ketahanan" untuk pembelajaran mesin, yang diperkenalkan pada tahun 2021 oleh peneliti ahli statistik di Universitas Stanford di California. Sebuah model dianggap kuat jika responsnya tetap konsisten meskipun ada sedikit gangguan pada input. Hal ini diketahui, misalnya, dari pengenalan citra: telah berulang kali ditunjukkan   sistem dapat dibingungkan jika hanya beberapa piksel dari suatu citra yang diubah. Orang-orang bahkan tidak akan menyadarinya.

Semakin kuat kecerdasan buatannya, semakin baik ia dapat bereaksi terhadap data baru. Bubeck dan Sellke menunjukkan secara matematis   meningkatkan jumlah parameter dalam model meningkatkan ketangguhannya dan karenanya kemampuannya untuk menggeneralisasi. Hukum membuktikan   pembesaran diperlukan untuk generalisasi, tetapi pembesaran tidak cukup, kata Bubeck. Meskipun demikian, ini digunakan sebagai pembenaran untuk mengembangkan model yang lebih besar.

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
Mohon tunggu...

Lihat Konten Humaniora Selengkapnya
Lihat Humaniora Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun