Technostory.net
KATEGORİLER
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER
TAKİP ET!
Technostory.net Technostory.net
Technostory.net Technostory.net
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER

Yeni Yapay Zeka Kodlama Yarışmasının İlk Sonuçları Hayal Kırıklığı Yarattı

  • Mevlut M
  • 24 Temmuz 2025
AI

Yeni bir yapay zeka kodlama yarışması olan K Prize, ilk kazananını açıkladı ve yapay zeka destekli yazılım mühendisliği için çıtayı oldukça aşağıya çekti.

Yarışmayı kazanan Eduardo Rocha de Andrade, yalnızca %7.5 başarı oranıyla 50.000 dolarlık ödülün sahibi oldu. Brezilyalı prompt mühendisi, bu düşük oranla birinci gelerek yarışmanın zorluk seviyesini net şekilde ortaya koydu.

Yarışmayı başlatan, Databricks ve Perplexity kurucu ortağı Andy Konwinski, “Zorlayıcı bir benchmark oluşturduğumuz için mutluyuz,” diyerek şu sözleri ekledi: “Bu yarışma, büyük laboratuvar modellerini değil, daha küçük ve açık kaynaklı modelleri avantajlı kılmak için sınırlı hesaplama gücüyle çevrimdışı olarak yürütülüyor. Bu da rekabeti eşitliyor.”

Konwinski, bu teste %90’ın üzerinde puan alabilecek ilk açık kaynak modele 1 milyon dolar ödül vereceğini duyurdu.

SWE-Bench benchmark sistemine benzeyen K Prize, GitHub’daki işaretlenmiş yazılım sorunlarını kullanarak modellerin gerçek dünya yazılım problemlerini çözme becerisini test ediyor. Ancak K Prize, modellerin özel olarak hazırlanmasını engellemek amacıyla yalnızca belirli bir tarihten sonra eklenen yeni GitHub sorunlarını kullanarak “kontaminasyonsuz” bir yapı oluşturuyor.

SWE-Bench’te mevcut en yüksek skor %75 (kolay testte) ve %34 (zor testte) olarak öne çıkarken, K Prize’daki %7.5’lik skor dikkat çekici bir düşüklüğe işaret ediyor. Konwinski, bu farkın SWE-Bench’in zamanla “ezberlenmiş” olmasından mı yoksa yeni sorunları seçmenin zorluğundan mı kaynaklandığını henüz bilmiyor. Ancak daha fazla yarışma turu yapıldıkça bu soruya yanıt bulacaklarını belirtiyor.

“Yarışma dinamiklerine zamanla uyum sağlanacağını düşünüyoruz,” diyor Konwinski. Yarışma birkaç ayda bir tekrarlanacak şekilde planlandı.

Yapay zeka kodlama araçlarının bu kadar yaygınlaştığı bir dönemde bu kadar düşük bir başarı oranı şaşırtıcı gibi görünse de, benchmark sistemlerinin fazla kolaylaşması, bu tür zorlukların gerekliliğini ortaya koyuyor.

Princeton araştırmacısı Sayash Kapoor da benzer fikirde: “Yeni testler oluşturmak şart. Mevcut sistemlerdeki asıl sorun kontaminasyon mu, yoksa sadece leaderboard’a oynayan insan müdahaleleri mi, bunu anlamanın başka yolu yok.”

Konwinski için bu sadece bir benchmark değil, aynı zamanda tüm sektöre açık bir meydan okuma.
“Yapay zeka doktorlar, avukatlar, yazılımcılar olacak deniyor. Ama bu gerçekçi değil. %10 bile alınamayan bir test varsa, işte gerçek o,” diyerek mevcut beklentilere karşı bir uyarı gönderiyor.

Etiketler
  • Benchmark
  • K Prize
  • SWE-Bench
  • Yapay Zeka
  • yazılım mühendisliği
Mevlut M

Önceki Yazı
shorts

YouTube Shorts, Görselleri Videoya Dönüştüren Yeni Yapay Zeka Özelliklerini Tanıttı

  • Bekir Tufan
  • 24 Temmuz 2025
Şimdi Oku
Sıradaki Yazı
Pillonel'in ürettiği iPhone kılıfı

Her iPhone’a Type C Veren Kılıf Satışta: Hızlı Şarj, CarPlay ve MagSafe Desteğiyle

  • Mevlut M
  • 24 Temmuz 2025
Şimdi Oku
Bakmadan Geçmeyin
Call of Duty Mobile Sezon 4
Şimdi Oku

Call of Duty: Mobile Sezon 4 ile Rebirth Island geri dönüyor

  • 18 Nisan 2026
predator helios neo 16 ai
Şimdi Oku

Predator Helios Neo 16 AI: RTX 5070 Ti ve Ultra 9 Performansı

  • 17 Nisan 2026
HP
Şimdi Oku

Basına Özel İlham Dolu Bir Gün: HP’nin AI Vizyonunu Ofislerinde Deneyimledik

  • 17 Nisan 2026
Dreame Türkiye Lansmanı 2026
Şimdi Oku

Dreame Türkiye Lansmanı 2026: Yeni Ürünler ve İnceleme

  • 17 Nisan 2026
casper nirvana hibrit calismasi
Şimdi Oku

Casper Nirvana: Hibrit Çalışma İçin Hafif ve Güçlü Laptop

  • 17 Nisan 2026
dan cham roborock turkiye lansmani
Şimdi Oku

Roborock Türkiye Lansmanı 2026: Yeni Saros ve Qrevo Serisi

  • 17 Nisan 2026
microsoft
Şimdi Oku

Microsoft Yama Yayınladı, Hacker Saatler İçinde Yenisini Paylaştı

  • 17 Nisan 2026
Intel Core Series 3
Şimdi Oku

Intel Core Series 3 Sahneye Çıktı: Daha Ucuz, Daha Güçlü, AI Destekli

  • 17 Nisan 2026
metro 2039
Şimdi Oku

Metro 2039 Duyuruldu

  • 17 Nisan 2026
gemini google
Şimdi Oku

Google Nano Banana 2 ile Kişisel Fotoğraflardan AI Görseller Üretecek

  • 17 Nisan 2026
İPhone
Şimdi Oku

Android mi iPhone mu? Yeni Veriler Kullanıcı Tercihini Netleştirdi

  • 17 Nisan 2026
dji osmo pocket 4
Şimdi Oku

DJI Osmo Pocket 4 vs Osmo Pocket 3: Tüm Farklar ve Yenilikler

  • 17 Nisan 2026

Bir yanıt yazın Yanıtı iptal et

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

STORY HUNTER
  • HP 1
    Basına Özel İlham Dolu Bir Gün: HP’nin AI Vizyonunu Ofislerinde Deneyimledik
    • 17.04.26
  • Dreame Türkiye Lansmanı 2026 2
    Dreame Türkiye Lansmanı 2026: Yeni Ürünler ve İnceleme
    • 17.04.26
  • dan cham roborock turkiye lansmani 3
    Roborock Türkiye Lansmanı 2026: Yeni Saros ve Qrevo Serisi
    • 17.04.26
  • dt cloud dijital egemenlik vizyonu 4
    DT Cloud Dijital Egemenlik: Bulut Vatan ve Yeni Stratejiler
    • 15.04.26
  • ticimax partner bulusmasi 2026 sahne 5
    Ticimax’tan Ezber Bozan Hamle: Bayiler Artık Kendi Teknoloji Markasını Kuruyor!
    • 13.04.26
  • sestek agentic cx summit 2026 6
    Sestek Agentic CX Summit 2026: Etkinlik İzlenimlerim
    • 13.04.26
  • pozitif teknoloji egitim teknolojileri toplantisi.jpg 7
    Pozitif Teknoloji Eğitim Teknolojileri ve iSelect Çözümleri
    • 10.04.26
  • mova turkiye lansmani rixos tersane istanbul.jpg 8
    MOVA Türkiye Lansmanındaydık: Akıllı Ev Ekosisteminde Yeni Dönem!
    • 08.04.26
  • yayin resize 11 1 9
    Türk Telekom 5G hologram deneyimi AKM’de
    • 31.03.26
  • Vodafone etkinlik alani 10
    Vodafone 5G Türkiye lansman deneyimi ve detaylar
    • 31.03.26

Technostory, teknoloji dünyasındaki güncel gelişmeleri, ürün lansmanlarını ve dijital trendleri sade, güvenilir ve anlaşılır bir dille sunan bağımsız bir teknoloji yayın platformudur.

  • Hakkımızda
  • Künye
  • İletişim

Aramak istediğinizi yazın ve "Enter"a basın.