Kali ini saya mau berbagi proses pewarnaan foto kuno dengan menggunakan Stable Diffusion (SD). Tentu dalam proses pewarnaan ada beberapa hal yang perlu dipersiapkan sebagai AI Engineer prompter.
Tahap Persiapan
- Siapkan foto lama atau kuno yang umumnya hitam putih dalam kondisi baik. Minimal 512x512 pixel. Jika perlu perbaikan secara visual lakukan di software grafis.
- Riset sejarah, informasi warna gedung, warna atap, kendaraan, dll. akan sangat membantu proses pewarnaan foto. Hal ini akan membantu proses akhir yang dikerjakan secara manual di software grafis.
- Install Stable Diffusion AI di local computer.
- Install ControlNet terbaru: canny dan depth
Tahap Input Image
Dalam stable diffusion saya menggunakan fitur image to image, artinya foto lama akan dijadikan input ke dalam SD. Sampling steps yang saya gunakan 40 agar menghasilkan detil yang baik dan perhatikan kapasitas VRAM. Sedangkan CFG Scale di atas angka 10. Untuk denoising strength saya gunakan angka 0.6, dimana semakin kecil angka maka akan menggunakan foto input lebih besar dibandingkan rekomendasi AI.
Tahap ControlNET
Pada tahap ini saya menggunakan hanya 2 controlNET yaitu yang pertama canny dengan settingan default. Silahkan atur low dan high treshold untuk mendapatkan detil bentuk yang akurat. ControlNET kedua yang saya gunakan adalah depth leres dengan setting default. Penggunaan depth untuk memberikan informasi kedalaman volume dari setiap bentuk dalam foto dan memudahkan AI mengenali obyek.
Tahap Prompt
Prompt di sini sebenarnya perannya tidak terlalu besar tetapi akan membantu AI memahami informasi dalam foto, seperti kondisi cuaca, jam, pencahayaan, kendaraan, dll. Di sinilah peran riset bangunan akan membantu dalam menuliskan prompt.
old city with roads in the middle, bridge, river, boat, trees, Photorealistic, Hyperrealistic, Hyperdetailed, analog style, hip cocked, demure, low cut, black lace, detailed skin, matte skin, soft lighting, subsurface scattering, realistic, heavy shadow, masterpiece, best quality, ultra realistic, 8k, golden ratio, Intricate, High Detail, film photography, soft focus
Negative prompt:
car, cars, sign, bad-picture-chill-75v, badhandsv5-neg, badhandv4, By bad artist -neg, easynegative, ng_deepnegative_v1_75t, verybadimagenegative_v1.1-6400, Watermark, Text, censored, deformed, bad anatomy, disfigured, poorly drawn face, mutated, extra limb, ugly, poorly drawn hands, missing limb, floating limbs, disconnected limbs, disconnected head, malformed hands, long neck, mutated hands and fingers, bad hands, missing fingers, cropped, worst quality, low quality, mutation, poorly drawn, huge calf, bad hands, fused hand, missing hand, disappearing arms, disappearing thigh, disappearing calf, disappearing legs, missing fingers, fused fingers, abnormal eye proportion, Abnormal hands, abnormal legs, abnormal feet, abnormal fingers, lowres, bad anatomy, bad hands, text, error, missing fingers, extra digit, fewer digits, cropped, worst quality, low quality, normal quality, jpeg artifacts, signature, watermark, username, blurry
Tahap Penentuan Model
Model yang saya gunakan untuk mengenerate gambar adalah RevAnimated, karena mempertimbangkan referensi bangunan yang lama atau kuno serta realistis. Namun silakan bereksperimen model untuk menghasilkan gambar yang sesuai harapan.