Mohon tunggu...
APOLLO_ apollo
APOLLO_ apollo Mohon Tunggu... Dosen - Lyceum, Tan keno kinoyo ngopo

Aku Manusia Soliter, Latihan Moksa

Selanjutnya

Tutup

Humaniora Pilihan

ChartGPT Aplikasi Kecerdasan Buatan

30 April 2023   09:48 Diperbarui: 30 April 2023   09:58 606
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Bagikan ide kreativitasmu dalam bentuk konten di Kompasiana | Sumber gambar: Freepik

Alasan lain mengapa otak efisien adalah karena sebagian besar neuron biologis tidak aktif - mereka hanya memiliki ledakan aktivitas sesekali. Sebaliknya, neuron buatan di sebagian besar jaringan saraf dimodelkan untuk selalu aktif. Para peneliti sekarang menyelidiki neuron buatan yang melonjak (meniru neuron nyata). 

Namun, sulit mengadaptasi algoritme yang melatih jaringan saraf normal ke jaringan yang menggunakan neuron spiking. Namun, penelitian menggunakan kumpulan data kecil (seperti 10.000 sampel audio yang digunakan untuk melatih jaringan pengenalan digit yang diucapkan) telah menunjukkan   RNN (Recurrent Neural Network) dengan neuron spiking mengungguli neuron standar, dan secara teoritis tiga kali lipat lebih efisien. "Kemajuannya cepat dan mengesankan, yang bekerja di bidang ini di Institut Penelitian Nasional untuk Matematika dan Informatika di Amsterdam.

Namun, selama jaringan spiking tersebut hanya disimulasikan dalam perangkat lunak, mereka tidak dapat memberikan peningkatan efisiensi yang nyata - lagipula, perangkat keras yang mereka simulasikan terus mengonsumsi listrik. Elemen komputasi yang sesuai harus dibangun ke dalam perangkat keras, pada chip neuromorfik, untuk memanfaatkannya.

Sementara itu, para peneliti sedang bereksperimen dengan berbagai cara untuk membuat LLM/Large Language Model  yang ada lebih hemat energi dan cerdas. Kembali pada Desember 2021, DeepMind memperkenalkan sistem yang disebut RETRO (Retrieval-Enhanced Transformer) yang menggabungkan LLM dengan database eksternal. 

LLM menggunakan teks relevan yang diambil dari database ini selama inferensi. Para peneliti mampu menunjukkan   LLM dengan 7,5 miliar parameter digabungkan dengan database 2 triliun token mengungguli LLM dengan parameter 25 kali lebih banyak . Ini adalah "pendekatan yang lebih efisien daripada penskalaan parameter murni, karena kami mencoba membuat model bahasa yang lebih kuat," tulis para peneliti dalam artikel mereka.

Pada bulan yang sama, ilmuwan dari Google Research melaporkan cara lain untuk meningkatkan efisiensi energi dalam skala besar. Generalist Language Model (GLaM) memiliki 1,2 triliun parameter. Namun, parameter ini tidak mewakili satu jaringan saraf raksasa, tetapi didistribusikan secara internal ke 64 jaringan saraf yang lebih kecil dan lapisan lainnya. LLM/Large Language Model  dilatih untuk menggunakan hanya dua jaringnya untuk menyelesaikan tugas selama inferensi; secara keseluruhan, LLM hanya menggunakan sekitar 8 persen dari lebih dari satu triliun parameternya untuk inferensi per token.

Menurut Google, GLaM membutuhkan jumlah sumber daya komputasi yang sama dengan pelatihan GPT-3, tetapi hanya menggunakan sekitar sepertiga energi karena peningkatan dalam perangkat lunak dan perangkat keras pelatihan. Selama inferensi, GLaM menggunakan separuh sumber daya komputasi yang dibutuhkan GPT-3. Dan itu mengungguli GPT-3 saat dilatih dengan jumlah data yang sama.

Namun, sebuah tren   muncul di sini: Bahkan LLM (Large Language Model ) yang lebih hemat energi ini harus menjadi lebih besar agar menjadi lebih baik. Jadi, jika   akan menggunakan lebih banyak data, daya pemrosesan, dan energi untuk kinerja yang lebih baik. Bersama dengan rekan-rekannya, dia akan mengamati bagaimana jaringan ini berubah dengan ukuran yang semakin besar,   dan terutama perilaku mereka: "Saya tidak yakin apakah sebagai hasilnya, pemikiran logis akan berkembang sepenuhnya," katanya dengan hati-hati. "Tidak ada yang bisa memprediksi itu.

Kata Kunci:

  • Large Language Model (LLM)
  • LaMDA (Language Model for Dialogue Applications)
  • Recurrent Neural Networks (RNN)
  • BigScience Large Open-science Open-access Multilingual Language Model (BLOOM)
  • RETRO (Retrieval-Enhanced Transformer)
  • ChatGPT (Chat Generative Pre-trained Transformer)

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
Mohon tunggu...

Lihat Konten Humaniora Selengkapnya
Lihat Humaniora Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun