Mohon tunggu...
Gatot Tri
Gatot Tri Mohon Tunggu... Administrasi - Swasta

life through a lens.. Saya menulis tentang tenis, arsitektur, worklife, sosial, dll termasuk musik dan film.

Selanjutnya

Tutup

Artificial intelligence Pilihan

Perkenalkan LLaVa, Chatbot AI yang Bisa Menginterpretasi Citra dengan Kata-kata

27 Oktober 2023   17:10 Diperbarui: 27 Oktober 2023   17:12 438
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Ilustrasi LLaVa menginterpretasi citra. (sumber foto: Gerd Altmann / Pixabay)

Satu lagi aplikasi chatbot kecerdasan buatan atau AI baru yang bakal berfaedah dalam kehidupan kita. Nama aplikasi AI tersebut adalah LLaVa yang merupakan singkatan dari Large Language and Vision Assistant.

Chatbot open-source tersebut memiliki kemampuan untuk menggabungkan obyek visual dan pemahaman bahasa dalam rangka menginterpretasi suatu citra atau gambar visual dan menjelaskannya dengan kata-kata. Di ranah AI, LLaVa disebut sebagai aplikasi end-to-end trained Large Multimodal Model (LLM).

LLaVa merupakan proyek Microsoft bekerja sama dengan pakar kecerdasan buatan dari perguruan tinggi. Beberapa figur dari Microsoft Research dalam proyek ini antara lain Principal Software Architect Wei-ge Chen dan Senior Principal Researcher Michel Galley.

Sedangkan figur dari perguruan tinggi adalah Yong Jae Lee, Associate Professor dari Universitas Wisconsin-Madison dan Haotian Liu, mahasiswa doktoral di universitas yang sama. Profil keduanya di laman Microsoft Research sangat menarik dimana keduanya sama-sama menggeluti computer vision dan machine learning.

LLaVa sangat bermanfaat ketika kita memerlukan pemahaman mendalam tentang konten tekstual dan visual. Tapi kita juga bisa melakukan percakapan dengan LLaVa seperti ChatGPT atau pun BingChat dan Claude AI.

Tapi rasanya LLaVa setingkat lebih canggih daripada aplikasi chatbot tersebut. Kalau Bing Chat bisa meng-generate citra visual lewat Bing Image Creator (yang diperkuat oleh DALL-E) yang disematkan di dalam area percakapan, LLaVa mampu menginterpretasi sebuah citra di area yang sama. Jadi LLaVa memiliki standar baru dalam hal kemampuan percakapan AI.

Pemakaiannya sangat mudah. Saya sudah mencobanya dan lumayan terkesan dengan kemampuannya. Silakan mencobanya juga di tautan ini. Versi terbaru LLaVa saat ini adalah versi llava-v1.5-13b dan sejauh ini merupakan satu-satunya versi yang sudah dapat dicoba.

Saya mencoba LLaVa untuk menjelaskan sebuah foto yang saya pilih secara random. Pada contoh Foto 1, saya meminta LLaVa untuk menjelaskan tentang foto sebuah interior mobil.

Foto 1: Foto sebuah interior mobil. (sumber foto: Ralf1403 / Pixabay)
Foto 1: Foto sebuah interior mobil. (sumber foto: Ralf1403 / Pixabay)
Berikut pertanyaan saya kepada LLaVa tentang foto tersebut dengan Bahasa Inggris.

Hello Llava, can you please explain about this image?

Setelah menunggu beberapa saat, LLaVa meresponnya dengan penjelasan dalam dua paragraf sebagai berikut:

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
Mohon tunggu...

Lihat Konten Artificial intelligence Selengkapnya
Lihat Artificial intelligence Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun