Google DeepMind, perşembe günü robotik ve görsel dil modelleri (VLM’ler) alanında yapılan yeni ilerlemeleri paylaştı. Teknoloji devinin yapay zeka (AI) araştırma bölümü, robotlarda yeni yetenekler geliştirmek için ileri görsel modeller üzerinde çalışıyor. Yeni bir çalışmada DeepMind, Gemini 1.5 Pro ve uzun bağlam penceresini kullanarak robotlarının navigasyon ve gerçek dünya anlayışında çığır açtığını vurguladı. Bu yılın başlarında, Nvidia da insansı robotlarda ileri yetenekleri güçlendiren yeni AI teknolojisini tanıttı.
Google DeepMind, Gemini AI Kullanarak Robotları Geliştiriyor
Google DeepMind, X (eski adıyla Twitter) üzerinde yaptığı bir paylaşımda, robotlarını Gemini 1.5 Pro’nun 2 milyon token bağlam penceresini kullanarak eğittiğini açıkladı. Bağlam pencereleri, bir AI modeline görünür olan bilgi penceresi olarak anlaşılabilir ve bu, AI modelinin sorgulanan konuyla ilgili bilgileri işlemesini sağlar.
Örneğin, bir kullanıcı bir AI modeline “en popüler dondurma lezzetleri” hakkında soru sorarsa, AI modeli dondurma ve lezzetler anahtar kelimelerini kontrol eder ve bu soruya yanıt bulmak için bilgi arar. Bu bilgi penceresi çok küçükse, AI sadece farklı dondurma lezzetlerinin isimlerini verebilir. Ancak, pencere daha büyükse, AI ayrıca her dondurma lezzeti hakkında kaç makale olduğunu görüp “popülerlik faktörünü” çıkarabilir.
DeepMind, robotlarını gerçek dünya ortamlarında eğitmek için bu uzun bağlam penceresinden yararlanıyor. Bölüm, robotun bir ortamın ayrıntılarını hatırlayıp hatırlayamayacağını ve kullanıcıya ortam hakkında bağlamsal veya belirsiz terimlerle sorulduğunda yardımcı olup olamayacağını görmek istiyor. Instagram’da paylaşılan bir videoda, AI bölümü, bir kullanıcının çizim yapabileceği bir yer sorduğunda robotun onu bir beyaz tahtaya yönlendirebildiğini gösterdi.
“1.5 Pro’nun 1 milyon token bağlam uzunluğu ile donatılmış robotlarımız, insan talimatlarını, video turlarını ve sağduyu mantığını kullanarak bir alan içinde yollarını başarıyla bulabilirler” diye belirtti Google DeepMind bir gönderide.
DeepMind, arXiv’de (bir çevrimiçi dergi) yayınlanan bir çalışmada, bu teknolojinin arkasındaki teknolojiyi açıkladı. Gemini’ye ek olarak, kendi Robotic Transformer 2 (RT-2) modelini de kullanıyor. Bu, hem web hem de robotik verilerden öğrenen bir görsel-dil-aksiyon (VLA) modelidir. Bilgisayarlı görme kullanarak gerçek dünya ortamlarını işler ve bu bilgileri veri kümeleri oluşturmak için kullanır. Bu veri kümesi daha sonra bağlamsal komutları çözümleyip istenen sonuçları üreten yapay zeka tarafından işlenebilir.
Şu anda Google DeepMind, robotlarını ortam keşfi ve talimatla yönlendirilmiş navigasyonu içeren Multimodal Instruction Navigation (MIN) adı verilen geniş bir kategori üzerinde eğitmek için bu mimariyi kullanıyor. Bölüm tarafından paylaşılan gösterim doğruysa, bu teknoloji robotik alanında daha ileriye taşınabilir.