Dalam mengenali sebuah gambar, komputer akan membaca sebuah gambar sebagai sebuah grid yang terdiri dari banyak pixel yang mengandung warna, dan setiap warna inilah yang merepresentasikan sebuah angka, khususnya warna merah, hijau, dan biru (RGB color), di mana setiap warna memiliki kombinasi yang unik antara penggunaan warna merah, hijau, dan biru. Dengan begitu, pada sebuah gambar akan mengandung berbagai angka unik pada tiap grid gambar tersebut.
Langkah selanjutnya adalah diffusion. Dalam proses ini, komputer membuat gambar menjadi kabur (seperti gambar pada tv yang rusak) dan hal ini sering disebut dengan noise. Saat membuat noise, komputer memasukkan angka acak (warna acak) ke dalam tiap grid pada gambar sampai komputer mendapatkan warna yang cocok.
Saat memasukkan perintah ke dalam komputer, komputer akan memecah perintah tersebut ke dalam perintah paling sederhana kemudian tiap kata dari perintah tersebut akan diubah menjadi angka. Angka ini akan mewakili sebuah objek pada gambar. Contohnya ketika kita memasukkan kata “kucing memakan sebuah ikan laut di atas sebuah mobil berwarna merah”. Komputer akan menyederhanakan kalimat tersebut menjadi “kucing makan ikan di atas mobil merah” yang kemudian akan diubah menjadi kode angka seperti “[53 8 71 13 44 83] *angka tersebut hanya ilustrasi. Tetapi, bagaimana cara komputer mengetahui kucing terlihat seperti kucing?
Untuk mengetahuinya, komputer mencari jutaan data gambar yang memiliki kata kunci kucing, kemudian komputer akan mempelajari jutaan gambar tersebut. Komputer akan memecah jutaan gambar kucing menjadi sebuah kode kode angka yang nantinya komputer akan menemukan pola angka yang merepresentasikan seekor kucing. Proses ini dinamakan text-image embeddings. Kemudian data ini akan dibawa ke dalam image generation. Dalam image generation inilah komputer membuat gambar dengan cara mengurangi noise dalam sebuah gambar sehingga menyerupai gambar yang kita inginkan.
Tetapi, proses ini akan memakan banyak waktu, sehingga komputer mengkompres gambar menjadi gambar yang kecil. gambar ini akan disimpan di dalam latent space. Setelah komputer berhasil membuat gambar tersebut, komputer akan memperbesar gambar tersebut dan akan menjadi output dari perintah yang kita berikan.
Follow Instagram @kompasianacom juga Tiktok @kompasiana biar nggak ketinggalan event seru komunitas dan tips dapat cuan dari Kompasiana
Baca juga cerita inspiratif langsung dari smartphone kamu dengan bergabung di WhatsApp Channel Kompasiana di SINI