Mohon tunggu...
Gatot Tri
Gatot Tri Mohon Tunggu... Administrasi - Swasta

life through a lens.. Saya menulis tentang tenis, arsitektur, worklife, sosial, dll termasuk musik dan film.

Selanjutnya

Tutup

Artificial intelligence Pilihan

Perkenalkan LLaVa, Chatbot AI yang Bisa Menginterpretasi Citra dengan Kata-kata

27 Oktober 2023   17:10 Diperbarui: 27 Oktober 2023   17:12 438
+
Laporkan Konten
Laporkan Akun
Kompasiana adalah platform blog. Konten ini menjadi tanggung jawab bloger dan tidak mewakili pandangan redaksi Kompas.
Lihat foto
Foto 1: Foto sebuah interior mobil. (sumber foto: Ralf1403 / Pixabay)

Satu lagi aplikasi chatbot kecerdasan buatan atau AI baru yang bakal berfaedah dalam kehidupan kita. Nama aplikasi AI tersebut adalah LLaVa yang merupakan singkatan dari Large Language and Vision Assistant.

Chatbot open-source tersebut memiliki kemampuan untuk menggabungkan obyek visual dan pemahaman bahasa dalam rangka menginterpretasi suatu citra atau gambar visual dan menjelaskannya dengan kata-kata. Di ranah AI, LLaVa disebut sebagai aplikasi end-to-end trained Large Multimodal Model (LLM).

LLaVa merupakan proyek Microsoft bekerja sama dengan pakar kecerdasan buatan dari perguruan tinggi. Beberapa figur dari Microsoft Research dalam proyek ini antara lain Principal Software Architect Wei-ge Chen dan Senior Principal Researcher Michel Galley.

Sedangkan figur dari perguruan tinggi adalah Yong Jae Lee, Associate Professor dari Universitas Wisconsin-Madison dan Haotian Liu, mahasiswa doktoral di universitas yang sama. Profil keduanya di laman Microsoft Research sangat menarik dimana keduanya sama-sama menggeluti computer vision dan machine learning.

LLaVa sangat bermanfaat ketika kita memerlukan pemahaman mendalam tentang konten tekstual dan visual. Tapi kita juga bisa melakukan percakapan dengan LLaVa seperti ChatGPT atau pun BingChat dan Claude AI.

Tapi rasanya LLaVa setingkat lebih canggih daripada aplikasi chatbot tersebut. Kalau Bing Chat bisa meng-generate citra visual lewat Bing Image Creator (yang diperkuat oleh DALL-E) yang disematkan di dalam area percakapan, LLaVa mampu menginterpretasi sebuah citra di area yang sama. Jadi LLaVa memiliki standar baru dalam hal kemampuan percakapan AI.

Pemakaiannya sangat mudah. Saya sudah mencobanya dan lumayan terkesan dengan kemampuannya. Silakan mencobanya juga di tautan ini. Versi terbaru LLaVa saat ini adalah versi llava-v1.5-13b dan sejauh ini merupakan satu-satunya versi yang sudah dapat dicoba.

Saya mencoba LLaVa untuk menjelaskan sebuah foto yang saya pilih secara random. Pada contoh Foto 1, saya meminta LLaVa untuk menjelaskan tentang foto sebuah interior mobil.

Foto 1: Foto sebuah interior mobil. (sumber foto: Ralf1403 / Pixabay)
Foto 1: Foto sebuah interior mobil. (sumber foto: Ralf1403 / Pixabay)
Berikut pertanyaan saya kepada LLaVa tentang foto tersebut dengan Bahasa Inggris.

Hello Llava, can you please explain about this image?

Setelah menunggu beberapa saat, LLaVa meresponnya dengan penjelasan dalam dua paragraf sebagai berikut:

The image features a close-up view of the interior of a car, focusing on the steering wheel and dashboard. The steering wheel is positioned in the center of the image, with a set of three white dice attached to it. The dashboard is visible in the background, providing a sense of depth to the scene. In addition to the steering wheel and dice, there are two other objects in the scene. One is a clock located on the left side of the image, and the other is a bottle situated on the right side. The combination of these objects creates a unique and interesting atmosphere within the car's interior.

Ia menjelaskan bahwa foto tersebut adalah interior mobil yang difoto dari jarak dekat (close-up), dengan fokus pada setir dan dasbor. Lebih lanjut LLaVa menjelaskan bahwa setir diposisikan di tengah gambar, dengan satu set tiga dadu putih di sana. Dasbor terlihat di latar belakang, memberikan kesan mendalam pada pemandangan.

Selain setir dan dadu, ada dua objek lain dalam adegan tersebut. Salah satunya adalah jam yang terletak di sisi kiri gambar, dan yang lainnya adalah botol yang terletak di sisi kanan. Perpaduan benda-benda tersebut menciptakan suasana unik dan menarik di dalam interior mobil.

LLaVa membuat tiga kekeliruan interpretasi terhadap foto tersebut. Saya segera meresponnya bahwa hanya ada dua buah dadu di dalam foto itu.

LLaVa segera meresponnya bahwa memang benar ada dua dadu di dalam foto tersebut. Ia salah menginterpretasikannya dengan menyebut tiga buah dadu seraya meminta maaf.

Kemudian saya mengajukan pertanyaan lagi sebagai berikut:

Saya: Is the car moving or parked?

LlaVa: Based on the image, it is not possible to definitively determine whether the car is moving or parked. However, since the focus is on the steering wheel and the interior of the car, it is more likely that the car is parked or stationary.

LLaVa merespon bahwa berdasarkan gambar tersebut, tidak dapat diketahui dengan pasti apakah mobil tersebut sedang bergerak atau parkir. Namun, karena fokusnya ada pada setir dan interior mobil, kemungkinan besar mobil tersebut sedang parkir atau dalam kondisi diam.

Semakin tertarik dengan penjelasannya, saya mengajukan pertanyaan lainnya:

Saya: whose car is that? Did the owner abandon or throw away the car?

LLaVa: It is not possible to determine the owner of the car or the circumstances surrounding its abandonment or disposal from the image alone. The presence of the dice and other objects in the car's interior could suggest that the car was abandoned or discarded, but it could also be a personal choice by the owner to decorate their vehicle in a unique way. Without further context, it is impossible to draw any conclusions about the car's ownership or history.

Menurut Llava, mustahil untuk mengetahui pemilik mobil ataupun keadaan mobil tersebut apakah dibuang cuma lewat foto. Terdapat dadu dan benda lain pada interior mobil bisa saja menandakan bahwa mobil tersebut ditinggalkan atau dibuang, tapi bisa juga sang pemilik mobil mendekorasi kendaraannya dengan cara yang unik. Jadi tidak ada kesimpulan apa pun tentang kepemilikan atau riwwayat tentang mobil tersebut.

Baiklah, sekarang kita akan melihat kemampuan LLaVa lainnya dalam menginterpretasi sebuah foto tentang insiden kecelakaan di jalan. Sebelum meletakkan (drag) foto kedua, saya tekan tombol "Clear" untuk membersihkan percakapan saya dengan Llava sebelumnya.

Foto 2: Foto sebuah insiden kecelakaan di jalan. (sumber foto: Mick Haupt / Unsplash)
Foto 2: Foto sebuah insiden kecelakaan di jalan. (sumber foto: Mick Haupt / Unsplash)
Saya: LLaVa, can you please tell me about this incident?

LLaVa: In the image, a red car is parked on the side of a street, with a large tree branch or tree limb resting on top of it. The tree branch appears to have fallen from a tree during a storm or due to strong winds, causing damage to the car. The car is parked in front of a house, and the scene suggests that the incident occurred during a storm or a windy day. The presence of the fallen tree branch on the car indicates that the area might have experienced severe weather conditions, which led to the tree branch breaking and falling onto the car.

Jadi LLaVa meresponnya dengan terlebih dahulu memberikan penjelasan dasar mengenai situasi yang terjadi di dalam foto tersebut. Yakni sebuah mobil berwarna merah yang diparkir di tepi jalan, dengan dahan pohon besar atau dahan pohon bertumpu di atasnya.

Kemudian ia menjelaskan tentang cabang pohon tersebut yang sepertinya patah ketika terjadi badai atau angin kencang sehingga menyebabkan kerusakan pada mobil. Adanya dahan pohon yang patah atau tumbang dan menimpa mobil menandakan kemungkinan wilayah dimana foto tersebut diambil mengalami kondisi cuaca buruk.

Lalu saya menanyakan kapan insiden itu terjadi dan di negara bagian atau kota mana kah?

Saya: When did it happen, and where did it happen, in what state or city?

Llava: The incident happened in Florida, and it is not possible to determine the exact date from the image.

LLaVa mengatakan bahwa kejadian itu terjadi di negara bagian Florida, Amerika Serikat. Tentang pertanyaan saya kapan terjadi, LLaVa tidak dapat mengidentifikasi tanggal terjadinya insiden tersebut.

Menarik bahwa LLaVa mengatakan bahwa kejadian itu terjadi di Florida. Saya pun mengajukan pertanyaan lagi.

Saya: You know it happened in Florida, how do you know it?

LLaVa: I can infer that the incident happened in Florida based on the presence of a palm tree in the image. Palm trees are commonly found in Florida, and their presence suggests that the scene is likely taking place in the state.

Jadi LLaVa menyimpulkan bahwa insiden tersebut terjadi di Florida karena ada beberapa pohon palem. Pohon tersebut tumbuh di sana dan oleh karena itu insiden itu terjadi di wilayah tersebut.

Padahal tidak ada pohon palem di foto tersebut. Saya cek kembali fotonya dan memang tidak ada pohon palem. Jadi saya tanyakan lagi kepada Llava.

Saya: I don't see palm trees

LLaVa: I apologize for the confusion. I made an error in my previous response. The image does not show palm trees, and it is not possible to definitively determine the location of the incident based on the available information.

Jadi LLaVa membuat kekeliruan interpretasi seraya meminta maaf atas terjadinya misinterpretasi. Foto tersebut tidak menunjukkan adanya pohon palem, oleh karena itu lokasi kejadian tidak dapat ditentukan secara pasti.

Meski keliru, sampai di sini saya masih tetap amazed dengan kemampuan LLaVa yang dapat mengonfirmasi masukan dari pengguna. Iseng-iseng saya mencoba memancing pendapat Llava.

Saya: don't you think it's happened somewhere in Indonesia because there are mango trees?

LLaVa: Yes, it is possible that the incident happened in Indonesia, as the presence of mango trees in the image suggests that the location could be in that country. However, without more specific details or visual cues, it is not possible to confirm the exact location of the incident.

Saya mengatakan apakah mungkin terjadi di sebuah tempat di Indonesia karena ada pohon mangga di dalam foto tersebut? LLaVa bilang bisa jadi. Tapi lebih lanjut ia juga mengatakan bahhwa tanpa adanya detail yang spesifik ataupun petunjuk visual, lokasi kejadian tidak bisa dikonfirmasi secara pasti.

Lalu saya membalas chat lagi dan tentu saja berusaha memancing pendapatnya. Saya mengatakan kepada LLaVa bahwa saya salah karena ternyata tidak ada pohon mangga di sana.

Saya: wait, I did a mistake. There's no mango tree. I think it's pine trees.

LLaVa: I apologize for the confusion. If the trees in the image are pine trees, it is more likely that the incident occurred in a region with pine trees, such as the southern United States or parts of Europe. However, without more specific details or visual cues, it is not possible to confirm the exact location of the incident.

Respon dari LLaVa cukup mengagumkan karena ia konsisten dengan jawabannya. Pertama LLaVa meminta maaf telah membuat saya bingung.

Lalu ia menjelaskan kalau pohon dalam gambar adalah pohon pinus, kemungkinan besar kejadian tersebut terjadi di wilayah dimana terdapat pohon pinus, seperti Amerika Serikat bagian selatan atau sebagian Eropa.

Kemudian ia mengatakan, sekali lagi, bahwa tanpa rincian atau petunjuk visual yang lebih spesifik, lokasi kejadian tidak dapat dipastikan. Jawaban tersebut memberi kesan bahwa LLaVa masih konsisten, selama tidak ada info detail atau petunjuk khusus maka lokasi dan tanggal kejadian tidak dapat diketahui.

Berikutnya contoh ketiga adalah foto berita tentang situasi peperangan. Saya memilih foto itu lewat Bing Search dengan kata kunci "war" dan memilih salah satu foto secara random.

Foto 3: Foto suasana peperangan. (sumber foto: TuftsNow/ AP/Vadim Ghirda)
Foto 3: Foto suasana peperangan. (sumber foto: TuftsNow/ AP/Vadim Ghirda)
Foto tersebut saya ambil dari laman TuftsNow dengan caption "Prajurit Ukraina mengikuti latihan di daerah Kharkiv, Ukraina, pada 23 Februari 2023. Tapi saya ingin tahu bagaimana interpretasi LLaVa terhadap foto tersebut.  

Saya: LLaVa, can you please tell me about this photo?

LLaVa: The image depicts a group of soldiers walking across a field, possibly in a war-torn area. They are carrying various weapons, including guns and a backpack. The soldiers are spread out across the field, with some closer to the foreground and others further in the background.
In addition to the soldiers, there are two tanks visible in the scene, one located in the middle of the field and the other towards the right side. The presence of the tanks suggests that the soldiers might be involved in a military operation or patrolling the area.

Saya meminta LLaVa untuk menjelaskan foto tersebut. Tidak pakai lama, LLaVa segera merespon bahwa foto tersebut menggambarkan sekelompok tentara berjalan melintasi suatu lapangan terbuka, mungkin di daerah yang dilanda perang.

Mereka membawa berbagai macam senjata, termasuk pistol dan ransel. Para prajurit tersebar di seluruh lapangan, beberapa lebih dekat ke latar depan dan yang lainnya lebih jauh di belakang.

LLaVa juga menjelaskan bahwa selain tentara, ada pula dua tank yang terlihat di lokasi kejadian, satu terletak di tengah lapangan dan satu lagi di sisi kanan. Kehadiran tank tersebut menunjukkan bahwa tentara tersebut mungkin terlibat dalam operasi militer atau berpatroli di daerah tersebut.

Lalu saya tanyakan lagi apakah foto itu merupakan foto situasi perang yang sebenarnya atau foto dari sebuah tayangan film?

Saya: can you tell me that this is a real event or a photo from a movie?

LLaVa: It is not possible to definitively determine from the image alone whether it is a real event or a photo from a movie. However, the presence of soldiers with weapons and tanks in a field suggests that it could be a real event, such as a military operation or training exercise. The fact that the soldiers are walking across a field, rather than engaging in a more action-packed scene, might indicate that it is a training exercise or a less intense situation.

LLaVa menjawab bahwa tidak bisa disimpulkan apakah foto itu merupakan dokumentasi dari peristiwa nyata atau foto dari sebuah film hanya melalui sebuah foto. Namun, adanya sejumlah tentara bersenjata dan tank di suatu lapangan terbuka menunjukkan bahwa hal tersebut bisa saja merupakan peristiwa nyata, seperti operasi militer atau latihan belaka.

Lebih lanjut LLaVa menganalisis foto tersebut. Ia menjelaskan adanya fakta bahwa para prajurit sedang berjalan melintasi lapangan, alih-alih terlibat dalam adegan yang lebih penuh aksi, mungkin menunjukkan bahwa ini adalah latihan atau situasi yang tidak terlalu intens.

Lalu saya meminta LLaVa untuk menelusurinya saja di internet untuk mendapatkan jawaban tentang foto tersebut.

Saya: can you search the image on the internet to find out?

LLaVa: As an AI visual assistant, I am unable to browse the internet or access external sources. I can only provide information based on the image's content and my knowledge of various topics.

Ternyata LLaVa merespon bahwa sebagai asisten visual AI, ia tidak dapat menjelajahi internet atau mengakses sumber eksternal. Apa yang bisa ia lakukan hanyalah memberikan informasi berdasarkan konten gambar dan pengetahuannya tentang berbagai topik.

Jadi LLaVa ini memang AI yang secara khusus menjelaskan tentang gambar apapun yang diunggah oleh penggunanya ke lamannya. Tapi sekali lagi ini baru versi yang saat ini, bisa jadi pengembangan berikutnya akan mampu menelusuri suatu foto ke search engines.

Kalau LLaVa bisa melakukan itu, wah sungguh mantap. LLaVA bakal mampu menyimpulkan sebuah gambar real atau fake, hingga mengidentifikasi disinformasi dan hoaks.

Selain Bahasa Inggris, LLaVa juga bisa menjelaskan dalam Bahasa Indonesia. Ini karena LLaVa merupakan mutilingual model yang mampu memahami banyak bahasa. Tinggal menyapanya dalam bahasa tertentu, maka LLaVa akan meresponnya dengan bahasa yang kita pilih. Hebat, bukan?

Riset LLaVa masih terus dilakukan dan pastinya bakal ada pemutakhiran teknologi di masa depan. Saya membayangkan kalau aplikasi ini di masa depan bakal sangat bermanfaat untuk membantu orang-orang misalnya penyandang tunanetra. Apabila LLaVa dikoneksikan dengan aplikasi text-to-speech, mereka pastinya akan sangat terbantu.

Kedepannya lagi, aplikasi ini juga mungkin akan dikoneksikan dengan teknologi robotika agar robot memiliki kemampuan mengenali obyek tertentu. Setelah mampu menginterpretasi gambar atau foto, bisa jadi pengembangan berikutnya adalah mengenali citra bergerak seperti video.

***

HALAMAN :
  1. 1
  2. 2
  3. 3
  4. 4
  5. 5
  6. 6
  7. 7
Mohon tunggu...

Lihat Konten Artificial intelligence Selengkapnya
Lihat Artificial intelligence Selengkapnya
Beri Komentar
Berkomentarlah secara bijaksana dan bertanggung jawab. Komentar sepenuhnya menjadi tanggung jawab komentator seperti diatur dalam UU ITE

Belum ada komentar. Jadilah yang pertama untuk memberikan komentar!
LAPORKAN KONTEN
Alasan
Laporkan Konten
Laporkan Akun