Technostory.net
KATEGORİLER
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER
TAKİP ET!
Technostory.net Technostory.net
Technostory.net Technostory.net
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER

Yeni Yapay Zeka Kodlama Yarışmasının İlk Sonuçları Hayal Kırıklığı Yarattı

  • Mevlut M
  • 24 Temmuz 2025
AI

Yeni bir yapay zeka kodlama yarışması olan K Prize, ilk kazananını açıkladı ve yapay zeka destekli yazılım mühendisliği için çıtayı oldukça aşağıya çekti.

Yarışmayı kazanan Eduardo Rocha de Andrade, yalnızca %7.5 başarı oranıyla 50.000 dolarlık ödülün sahibi oldu. Brezilyalı prompt mühendisi, bu düşük oranla birinci gelerek yarışmanın zorluk seviyesini net şekilde ortaya koydu.

Yarışmayı başlatan, Databricks ve Perplexity kurucu ortağı Andy Konwinski, “Zorlayıcı bir benchmark oluşturduğumuz için mutluyuz,” diyerek şu sözleri ekledi: “Bu yarışma, büyük laboratuvar modellerini değil, daha küçük ve açık kaynaklı modelleri avantajlı kılmak için sınırlı hesaplama gücüyle çevrimdışı olarak yürütülüyor. Bu da rekabeti eşitliyor.”

Konwinski, bu teste %90’ın üzerinde puan alabilecek ilk açık kaynak modele 1 milyon dolar ödül vereceğini duyurdu.

SWE-Bench benchmark sistemine benzeyen K Prize, GitHub’daki işaretlenmiş yazılım sorunlarını kullanarak modellerin gerçek dünya yazılım problemlerini çözme becerisini test ediyor. Ancak K Prize, modellerin özel olarak hazırlanmasını engellemek amacıyla yalnızca belirli bir tarihten sonra eklenen yeni GitHub sorunlarını kullanarak “kontaminasyonsuz” bir yapı oluşturuyor.

SWE-Bench’te mevcut en yüksek skor %75 (kolay testte) ve %34 (zor testte) olarak öne çıkarken, K Prize’daki %7.5’lik skor dikkat çekici bir düşüklüğe işaret ediyor. Konwinski, bu farkın SWE-Bench’in zamanla “ezberlenmiş” olmasından mı yoksa yeni sorunları seçmenin zorluğundan mı kaynaklandığını henüz bilmiyor. Ancak daha fazla yarışma turu yapıldıkça bu soruya yanıt bulacaklarını belirtiyor.

“Yarışma dinamiklerine zamanla uyum sağlanacağını düşünüyoruz,” diyor Konwinski. Yarışma birkaç ayda bir tekrarlanacak şekilde planlandı.

Yapay zeka kodlama araçlarının bu kadar yaygınlaştığı bir dönemde bu kadar düşük bir başarı oranı şaşırtıcı gibi görünse de, benchmark sistemlerinin fazla kolaylaşması, bu tür zorlukların gerekliliğini ortaya koyuyor.

Princeton araştırmacısı Sayash Kapoor da benzer fikirde: “Yeni testler oluşturmak şart. Mevcut sistemlerdeki asıl sorun kontaminasyon mu, yoksa sadece leaderboard’a oynayan insan müdahaleleri mi, bunu anlamanın başka yolu yok.”

Konwinski için bu sadece bir benchmark değil, aynı zamanda tüm sektöre açık bir meydan okuma.
“Yapay zeka doktorlar, avukatlar, yazılımcılar olacak deniyor. Ama bu gerçekçi değil. %10 bile alınamayan bir test varsa, işte gerçek o,” diyerek mevcut beklentilere karşı bir uyarı gönderiyor.

Etiketler
  • Benchmark
  • K Prize
  • SWE-Bench
  • Yapay Zeka
  • yazılım mühendisliği
Mevlut M

Önceki Yazı
shorts

YouTube Shorts, Görselleri Videoya Dönüştüren Yeni Yapay Zeka Özelliklerini Tanıttı

  • Bekir Tufan
  • 24 Temmuz 2025
Şimdi Oku
Sıradaki Yazı
Pillonel'in ürettiği iPhone kılıfı

Her iPhone’a Type C Veren Kılıf Satışta: Hızlı Şarj, CarPlay ve MagSafe Desteğiyle

  • Mevlut M
  • 24 Temmuz 2025
Şimdi Oku
Bakmadan Geçmeyin
destek gorseli yapay zeka tasarim
Şimdi Oku

Google Gemini ile Milli Takım Marşı Nasıl Yazılır? Adım Adım Prompt Rehberi

  • 3 Haziran 2026
Google Gemini
Şimdi Oku

Google Gemini, Millî Takımlarımızın Resmî Sponsoru Oldu

  • 2 Haziran 2026
Acer QD-OLED
Şimdi Oku

Acer’dan QD-OLED Atılımı: 999 Euro’luk 4K Monitörler ve Google TV’li Lazer Projektör Geliyor

  • 2 Haziran 2026
Kaspersky Tehdit İstihbaratı Portalı
Şimdi Oku

Kaspersky Tehdit İstihbaratı Portalı’nı Yeniledi: 2.000+ Rapor Artık Tek Platformda

  • 2 Haziran 2026
ASUS ProArt
Şimdi Oku

ASUS ProArt P16 ve P14 Tanıtıldı: NVIDIA RTX Spark ile Kişisel Yapay Zeka Ajanları Devri Başlıyor

  • 2 Haziran 2026
ASUS ROG Computex 2026
Şimdi Oku

ASUS ROG Computex 2026’da Hem Geçmişi Hem Geleceği Sahneye Taşıyor

  • 1 Haziran 2026
DuckDuckGo nedir?
Şimdi Oku

DuckDuckGo Nedir? Gizlilik Odaklı Arama Motoru Türkiye’de Nasıl Kullanılır?

  • 30 Mayıs 2026
Edisyn
Şimdi Oku

Edisyn Yapay Zekâ Toplantı Asistanı, 3 Türk Mühendis Kurdu, 550 Milyon Kullanıcının Sorununa Çözüm Oldu

  • 30 Mayıs 2026
xiaomi 17t renk secenekleri
Şimdi Oku

Xiaomi 17T Serisi Tanıtıldı: 7000 mAh Batarya, Leica Live Moment ve 4K 60fps Video

  • 29 Mayıs 2026
Logitech Signature Comfort Plus
Şimdi Oku

Logitech Signature Comfort Plus Serisi Tanıtıldı: Masa Başında Yastıklı Konfor Dönemi!

  • 27 Mayıs 2026
GM 26 Pro 5G
Şimdi Oku

General Mobile GM 26 Pro 5G Tanıtıldı: Türkiye’de Bir İlk Olan AMOLED Arka Ekranla Geliyor!

  • 27 Mayıs 2026
Sennheiser Momentum 5 Wireless
Şimdi Oku

Sennheiser Momentum 5 Wireless Tanıtıldı: Dolby Atmos ve 57 Saat Pil Ömrüyle Geliyor

  • 26 Mayıs 2026

Bir yanıt yazın Yanıtı iptal et

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Sponsorlu İçerik
STORY HUNTER
  • dreo 1
    DREO Akıllı Ev Teknolojileri ile Türkiye’de 1. Yıl ve Yaz Lansmanı
    • 24.05.26
  • pelin yelkencioglu 2
    Securitas Technology 2026: Yeni Nesil Güvenlik Teknolojileri Trendleri
    • 11.05.26
  • emre hantaloglu 3
    Lenovo Türkiye Pazar Liderliği: 6 Yıldır Zirvede
    • 29.04.26
  • tff turk telekom yayin haklari imza 4
    TFF Türk Telekom Yayın Hakları Anlaşması: Alt Ligler Tivibu’da
    • 27.04.26
  • ROG Zephyrus Duo 5
    ASUS ve ROG 2026 Türkiye Lansmanı: AI Laptop Serisi
    • 25.04.26
  • honor besiktas basketbol imza toreni 6
    HONOR Beşiktaş Basketbol Sponsorluğu: Potada Teknoloji Dönemi
    • 22.04.26
  • gozde kucukyilmaz haier turkiye lansmani.jpg 7
    Haier Türkiye Lansmanı 2026: Yeni Soğutma Teknolojileri
    • 22.04.26
  • HP 8
    Basına Özel İlham Dolu Bir Gün: HP’nin AI Vizyonunu Ofislerinde Deneyimledik
    • 17.04.26
  • Dreame Türkiye Lansmanı 2026 9
    Dreame Türkiye Lansmanı 2026: Yeni Ürünler ve İnceleme
    • 17.04.26
  • dan cham roborock turkiye lansmani 10
    Roborock Türkiye Lansmanı 2026: Yeni Saros ve Qrevo Serisi
    • 17.04.26

Technostory, teknoloji dünyasındaki güncel gelişmeleri, ürün lansmanlarını ve dijital trendleri sade, güvenilir ve anlaşılır bir dille sunan bağımsız bir teknoloji yayın platformudur.

  • Hakkımızda
  • Künye
  • İletişim

Aramak istediğinizi yazın ve "Enter"a basın.