OpenAI’ın insan seviyesinde zekaya sahip olduğu iddia edilen o3 serisi yapay zeka (AI) modeli için kıyaslama sonuçları arasındaki tutarsızlık, şirketin şeffaflığı ve modelin test uygulamaları hakkında soru işaretlerini gündeme getirdi.
OpenAI, o3 yapay zeka (AI) akıl yürütme modelini 2024 yılının aralık ayında tanıtmıştı. Şirket, tanıtım sürecinde modelin FrontierMath’teki soruların dörtte birinden biraz fazlasını, yani zorlu matematik problemlerini yanıtlayabileceğini iddia etti. Bir sonraki en iyi model, FrontierMath problemlerinin yalnızca %2’sini doğru yanıtlamayı başardı.
OpenAI’ın baş araştırma görevlisi Mark Chen, canlı yayın sırasında “Bugün, piyasadaki tüm teklifler (FrontierMath’te) %2’den az. Dahili olarak, agresif test zamanı hesaplama ayarlarında o3 ile %25’in üzerine çıkabildiğimizi görüyoruz” açıklamasını yaptı.
FrontierMath’in arkasındaki araştırma enstitüsü Epoch AI, geçtiğimiz cuma günü o3 yapay zeka modelinin bağımsız kıyaslama testlerinin sonuçlarını yayınladı. Epoch, o3’ün OpenAI’nin iddia edilen en yüksek puanının oldukça altında, yaklaşık %10 puan aldığını duyurdu.
OpenAI’ın o3 Yapay Zeka (AI) Modelinin, Beklenenden Düşük Puan Almasının Nedeni
Şirketin aralık ayında yayınladığı kıyaslama sonuçları, Epoch’un gözlemlediği puanla eşleşen bir alt sınır puanı gösteriyor. Epoch ayrıca test kurulumunun OpenAI’ninkinden muhtemelen farklı olduğunu ve değerlendirmeleri için FrontierMath’in güncellenmiş bir sürümünü kullandığını belirtiyor. Epoch, “Sonuçlarımız ile OpenAI’ın sonuçları arasındaki fark, OpenAI’nin daha güçlü bir dahili yapı iskelesi ile değerlendirme yapmasından, daha fazla hesaplama süresi kullanmasından veya bu sonuçların FrontierMath’in farklı bir alt kümesinde çalıştırılmış olmasından kaynaklanıyor olabilir” açıklamasını yaptı.