Yapay Zeka Yarışmasının Sonuçları Hayal Kırıklığı Yarattı

Yeni bir yapay zeka kodlama yarışması olan K Prize, ilk kazananını açıkladı ve yapay zeka destekli yazılım mühendisliği için çıtayı oldukça aşağıya çekti.

Yarışmayı kazanan Eduardo Rocha de Andrade, yalnızca %7.5 başarı oranıyla 50.000 dolarlık ödülün sahibi oldu. Brezilyalı prompt mühendisi, bu düşük oranla birinci gelerek yarışmanın zorluk seviyesini net şekilde ortaya koydu.

Yarışmayı başlatan, Databricks ve Perplexity kurucu ortağı Andy Konwinski, “Zorlayıcı bir benchmark oluşturduğumuz için mutluyuz,” diyerek şu sözleri ekledi: “Bu yarışma, büyük laboratuvar modellerini değil, daha küçük ve açık kaynaklı modelleri avantajlı kılmak için sınırlı hesaplama gücüyle çevrimdışı olarak yürütülüyor. Bu da rekabeti eşitliyor.”

Konwinski, bu teste %90’ın üzerinde puan alabilecek ilk açık kaynak modele 1 milyon dolar ödül vereceğini duyurdu.

SWE-Bench benchmark sistemine benzeyen K Prize, GitHub’daki işaretlenmiş yazılım sorunlarını kullanarak modellerin gerçek dünya yazılım problemlerini çözme becerisini test ediyor. Ancak K Prize, modellerin özel olarak hazırlanmasını engellemek amacıyla yalnızca belirli bir tarihten sonra eklenen yeni GitHub sorunlarını kullanarak “kontaminasyonsuz” bir yapı oluşturuyor.

SWE-Bench’te mevcut en yüksek skor %75 (kolay testte) ve %34 (zor testte) olarak öne çıkarken, K Prize’daki %7.5’lik skor dikkat çekici bir düşüklüğe işaret ediyor. Konwinski, bu farkın SWE-Bench’in zamanla “ezberlenmiş” olmasından mı yoksa yeni sorunları seçmenin zorluğundan mı kaynaklandığını henüz bilmiyor. Ancak daha fazla yarışma turu yapıldıkça bu soruya yanıt bulacaklarını belirtiyor.

“Yarışma dinamiklerine zamanla uyum sağlanacağını düşünüyoruz,” diyor Konwinski. Yarışma birkaç ayda bir tekrarlanacak şekilde planlandı.

Yapay zeka kodlama araçlarının bu kadar yaygınlaştığı bir dönemde bu kadar düşük bir başarı oranı şaşırtıcı gibi görünse de, benchmark sistemlerinin fazla kolaylaşması, bu tür zorlukların gerekliliğini ortaya koyuyor.

Princeton araştırmacısı Sayash Kapoor da benzer fikirde: “Yeni testler oluşturmak şart. Mevcut sistemlerdeki asıl sorun kontaminasyon mu, yoksa sadece leaderboard’a oynayan insan müdahaleleri mi, bunu anlamanın başka yolu yok.”

Konwinski için bu sadece bir benchmark değil, aynı zamanda tüm sektöre açık bir meydan okuma.
“Yapay zeka doktorlar, avukatlar, yazılımcılar olacak deniyor. Ama bu gerçekçi değil. %10 bile alınamayan bir test varsa, işte gerçek o,” diyerek mevcut beklentilere karşı bir uyarı gönderiyor.