Nvidia, Görsellerde Nesne Taşıyabilen DiffUHaul AI Araçını Tanıttı

Nvidia araştırmacıları, görsellerde nesnelerin yerini değiştirebilen yeni bir yapay zeka (AI) modeli geliştirdi. DiffUHaul olarak adlandırılan bu araç, görüntünün arka planına zarar vermeden ve şekil bozulmasına neden olmadan nesneleri taşıyabiliyor.

DiffUHaul Nedir ve Nasıl Çalışır?

Nvidia’nın SIGGRAPH Asia 2024 konferansında tanıttığı DiffUHaul, AI modellerinin uzamsal farkındalık eksikliğini çözmeyi hedefliyor. Araç, önceden eğitilmiş veriler kullanmadan geliştirildi ve görüntü difüzyon mimarisi üzerine inşa edildi.

Yöntem: Denoising (gürültü azaltma) adımında dikkat maskelemesi (attention masking) kullanılarak yüksek seviyeli nesne görünümü korunuyor.
Yeni Teknik: BlobGEN adı verilen bir teknikle yapay zekanın uzamsal anlayışı artırılıyor ve nesneler istenen konumlara yeniden yerleştiriliyor.
Kullanıcı Deneyimi: Kullanıcılar bir metin komutuyla taşıma talimatı verebilir; araç, nesneyi taşırken arka planı da buna göre düzenliyor.

DiffUHaul’un Farkı Ne?

Mevcut AI modelleri görüntü bağlamını anlayabilirken, iki boyutlu bir ortamda nesnelerin hareketinin uzamsal olarak nasıl algılanacağını anlamakta zorlanıyor. DiffUHaul, bu eksikliği çözerek nesne taşıma işlemini daha akıcı ve doğru hale getiriyor.

Eksikleri Ne?

Araç, görsellerde nesneleri taşırken başarılı olsa da, uzamsal hareketle gelen şekil değişikliklerini (örneğin, havadaki bir balonun yere taşındığında şekil değiştirmesi) tam olarak anlayamayabilir. Bu durum, modelin eğitim verilmeden geliştirilmiş olmasından kaynaklanıyor.