Apa itu Knowledge Distillation dari Kemunculan DeepSeek, Apa dan Bagaimana Kerjanya? Halaman all

Sedang ramai dibicarakan suatu aplikasi yang berhasil membuat saham Nvidia anjlok 12%, ya DeepSeek. Apa itu DeepSeek? Perusahaan AI (Artificial Intelligence) dari Tiongkok yang mengembangkan Large Language Models (LLM), sama seperti ChatGPT dari OpenAI.

Yang menarik adalah DeepSeek mengklaim hanya butuh 55 hari untuk menyelesaikan semua proses, dan menghabiskan 5.58 juta USD, tentunya nominal ini 10 kali lebih kecil dibanding OpenAI. Apakah hal tersebut memungkinkan?

Mengutip pernyataan David Sacks, pimpinan AI dan Kripto Gedung Putih, bahwa ini merupakan bagian dari 'knowledge distillation' atau proses menyaring informasi dari model machine learning yang lebih kompleks, dimana dilakukan oleh machine learning yang lebih sederhana.

Hal ini yang membuat waktu pembuatan lebih singkat dan biaya yang dikeluarkan lebih murah, namun bagaimana akurasi dari DeepSeek? Berdasarkan Reuters, akurasi dari DeepSeek adalah 17% dalam audit NewsGuard, yang membuat DeepSeek harus bertengger di urutan 10 dari 11 dari pesaingnya, seperti OpenAI dan Gemini.

Dengan informasi tersebut, menarik untuk memahami lebih dalam terkait 'Knowledge Distillation', bagaimana Tiongkok mencoba bersaing dengan Amerika Serikat, setelah Trump resmi menyatakan akan mempersulit perdagangan Tiongkok di Negeri Paman Sam.

Apa itu Knowledge Distillation dari Munculnya DeepSeek?

OpenAI, Gemini, dan DeepSeek merupakan bagian dari Large Language Model, suatu model kecerdasan buatan atau AI dengan data dalam jumlah besar (minimal satu milyar atau lebih parameter) yang dapat menghasilkan dan memahami bahasa manusia.

Karena membutuhkan sumber daya dan parameter yang besar, 'knowledge distillation' muncul sebagai solusi untuk membuat AI yang lebih efisien untuk tugas-tugas tertentu dengan modal yang kecil.

Pada dasarnya, metode ini memungkinkan untuk pengembang mentransfer 'knowledge' dalam hal ini informasi atau parameter dari model yang lebih besar dan kompleks ke model yang lebih kecil, misalkan saja seorang profesor mentransfer 'ilmu' ke seorang mahasiswa magang.

Dengan harapan, mahasiwa magang akan memiliki performa yang serupa dengan profesor, namun dengan sumber daya dan waktu yang lebih sedikit, seperti waktu dan biaya praktek, informasi media, dan lainnya.

Nah, dalam kasus DeepSeek dan OpenAI, secara bisnis metode ini akan mengurangi ukuran, memori, daya pemrosesan, dan kompleksitas komputasi model yang dihasilkan. Hal ini penting untuk aplikasi real-time yang mengutamakan kecepatan dan efisiensi.

Baca juga: Skill Penting di Era Digital, Prompt AI

Cara Kerja Knowledge Distillation

Sama dengan penjelasan diatas, proses knowledge distillation melibatkan beberapa langkah utama, seperti:

1. Model LLM yang Kredibel (OpenAI-GPT)

Memiliki parameter yang kompleks yang telah dilatih dalam menggunakan data dalam jumlah besar, perannya disini adalah sebagai profesor. Terbukti dapat melakukan berbagai tugas, seperti menghasilkan teks, gambar, menganalisa, mengklasifikasikan data, dan lainnya sesuai dengan prompt atau perintah.

2. Mempelajari Soft Output

Alih-alih meniru jawaban spesifik dari prompt yang diberikan, model AI kedua yang berperan sebagai mahasiswa magang, yang belajar dari soft output dari profesor. Apa itu soft output? Adalah distribusi probabilitas yang dihasilkan oleh model profesor dari suatu input tertentu.

Misalnya, input yang dihasilkan adalah "Apa ibu kota Perancis?", GPT kemungkinan akan menampilkan distribusi probabilitas seperti Paris, London, atau Roma, dimana Paris sebagai jawaban yang paling mungkin. Jadi, memperkirakan distribusi probabilitas adalah tahap kedua.

3. Melatih Target atau 'mahasiswa magang'

Proses menyesuaikan parameter internal sehingga probabilitas yang dihasilkan sesuai dengan 'sumber' atau profesor meskipun jumlah parameter lebih sedikit dan komputasinya lebih sederhana. Pada tahap ini, diukur akurasi dari hasil 'profesor' dan 'mahasiswa magang'.

4. Penyempurnaan

Tahapan ini dilakukan untuk mengkhususkan diri pada tugas dan kumpulan data tertentu, sehingga dapat dipastikan bahwa model 'mahasiswa magang' memiliki performa baik dalam tugas yang diberikan, seperti menjawab pertanyaan spesifik atau menganalisa data.

Dari penjelasan diatas, akan menjawab pertanyaan 'Apakah memungkinkan dilakukan dalam 55 hari?', dan jawabannya adalah mungkin. Namun, jangka waktu ini juga tergantung pada kompleksitas model, data , parameter, sumber daya komputasi, dan lainnya.

Tentunya, masuk akan jika akurasi DeepSeek masih di angka 17%, namun ini menjadi awal mula perang ekonomi antara Amerika Serikat dengan Tiongkok. Lantas, apa hal yang bisa kita pelajari dari hadirnya DeepSeek? Bahwa kedaulatan sebuah negara perlu diperjuangkan.

Saya banyak belajar dari gebrakan negara Tiongkok, bagaimana mendidik warga negaranya, memprioritaskan pendidikan dan berusaha untuk berdaulat secara ekonomi. Jadi benar peribahasa untuk 'Tuntutlah ilmu sampai ke negeri Cina', karena hari ini Cina terbukti menjadi negara maju, dengan kemajuan teknologi, ekonomi, dan ilmu pengetahuan.

Referensi:

Follow Instagram @kompasianacom juga Tiktok @kompasiana biar nggak ketinggalan event seru komunitas dan tips dapat cuan dari Kompasiana
Baca juga cerita inspiratif langsung dari smartphone kamu dengan bergabung di WhatsApp Channel Kompasiana di SINI

HALAMAN :

LIHAT SEMUA

Mohon tunggu...

Lihat Artificial intelligence Selengkapnya

Beri Komentar

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!

Apa itu Knowledge Distillation dari Kemunculan DeepSeek, Apa dan Bagaimana Kerjanya?

Apa itu Knowledge Distillation dari Munculnya DeepSeek?

Cara Kerja Knowledge Distillation

1. Model LLM yang Kredibel (OpenAI-GPT)

2. Mempelajari Soft Output

3. Melatih Target atau 'mahasiswa magang'

4. Penyempurnaan

artificial-intelligence

artificialintelligence

technology

machinelearning

knowledge

new world

artificial intelligence

Artikel Lainnya

LAPORKAN KONTEN

Kamu Pilih Naik Transportasi Apa Saat ke Kantor?

Dikotomi Dunia Kerja, Gen Z Bagaimana?

Kolaborasi AI Dalam Dunia Mode dan Kecantikan

Apa itu Knowledge Distillation dari Kemunculan DeepSeek, Apa dan Bagaimana Kerjanya?

Apa itu Knowledge Distillation dari Munculnya DeepSeek?

Cara Kerja Knowledge Distillation

1. Model LLM yang Kredibel (OpenAI-GPT)

2. Mempelajari Soft Output

3. Melatih Target atau 'mahasiswa magang'

4. Penyempurnaan

artificial-intelligence

artificialintelligence

technology

machinelearning

knowledge

new world

artificial intelligence

Artikel Lainnya

LAPORKAN KONTEN