Technostory.net
KATEGORİLER
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER
TAKİP ET!
Technostory.net Technostory.net
Technostory.net Technostory.net
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER

OpenAI’ın o3 Yapay Zeka (AI) Modeli, Beklenenden Düşük Puan Aldı

  • Haber Merkezi
  • 21 Nisan 2025
OpenAI o3 akil yurutme yapay zeka ai

OpenAI’ın insan seviyesinde zekaya sahip olduğu iddia edilen o3 serisi yapay zeka (AI) modeli için kıyaslama sonuçları arasındaki tutarsızlık, şirketin şeffaflığı ve modelin test uygulamaları hakkında soru işaretlerini gündeme getirdi.

OpenAI, o3 yapay zeka (AI) akıl yürütme modelini 2024 yılının aralık ayında tanıtmıştı. Şirket, tanıtım sürecinde modelin FrontierMath’teki soruların dörtte birinden biraz fazlasını, yani zorlu matematik problemlerini yanıtlayabileceğini iddia etti. Bir sonraki en iyi model, FrontierMath problemlerinin yalnızca %2’sini doğru yanıtlamayı başardı.

OpenAI’ın baş araştırma görevlisi Mark Chen, canlı yayın sırasında “Bugün, piyasadaki tüm teklifler (FrontierMath’te) %2’den az. Dahili olarak, agresif test zamanı hesaplama ayarlarında o3 ile %25’in üzerine çıkabildiğimizi görüyoruz” açıklamasını yaptı.

FrontierMath’in arkasındaki araştırma enstitüsü Epoch AI, geçtiğimiz cuma günü o3 yapay zeka modelinin bağımsız kıyaslama testlerinin sonuçlarını yayınladı. Epoch, o3’ün OpenAI’nin iddia edilen en yüksek puanının oldukça altında, yaklaşık %10 puan aldığını duyurdu.

OpenAI’ın o3 Yapay Zeka (AI) Modelinin, Beklenenden Düşük Puan Almasının Nedeni

Şirketin aralık ayında yayınladığı kıyaslama sonuçları, Epoch’un gözlemlediği puanla eşleşen bir alt sınır puanı gösteriyor. Epoch ayrıca test kurulumunun OpenAI’ninkinden muhtemelen farklı olduğunu ve değerlendirmeleri için FrontierMath’in güncellenmiş bir sürümünü kullandığını belirtiyor. Epoch, “Sonuçlarımız ile OpenAI’ın sonuçları arasındaki fark, OpenAI’nin daha güçlü bir dahili yapı iskelesi ile değerlendirme yapmasından, daha fazla hesaplama süresi kullanmasından veya bu sonuçların FrontierMath’in farklı bir alt kümesinde çalıştırılmış olmasından kaynaklanıyor olabilir” açıklamasını yaptı.

Etiketler
  • AI
  • akıl yürütme
  • Epoch
  • FrontierMath
  • o3
  • openai
  • Yapay Zeka
Haber Merkezi

Önceki Yazı
whatsapp 1

WhatsApp’tan Kullanıcı Güvenliği İçin Yeni Özellik

  • Haber Merkezi
  • 21 Nisan 2025
Şimdi Oku
Sıradaki Yazı
yapay zeka temelli kisisellestirilmis ogrenme cocuklari gelecege tasiyor Tecnostory

Yapay Zekâ Temelli Kişiselleştirilmiş Öğrenme Çocukları Geleceğe Taşıyor

  • Haber Merkezi
  • 21 Nisan 2025
Şimdi Oku
Bakmadan Geçmeyin
asus computex 2026 stand genel
Şimdi Oku

ASUS Computex 2026’da Uçtan Uca Yapay Zeka Ekosistemini Tanıttı: İşten Oyuna Her Şey Değişiyor

  • 12 Haziran 2026
MSI PRO MAX
Şimdi Oku

MSI PRO MAX 271UPXW ile Mac Ekosistemi Artık Tamamlanıyor: QD-OLED, KVM ve M-Mate Bir Arada

  • 12 Haziran 2026
MSI MPG OLED 322URDX36
Şimdi Oku

MSI MPG OLED 322URDX36: Tek Monitörde 4K 360Hz, 2K 520Hz ve FHD 680Hz

  • 12 Haziran 2026
firefly
Şimdi Oku

Intel Firefly ile Dizüstü Bilgisayarları Baştan Tasarlıyor

  • 11 Haziran 2026
MSI COMPUTEX 2026
Şimdi Oku

MSI, COMPUTEX 2026’da RTX 5090 Lightning Z ile Dört Ödül Birden Kazandı

  • 11 Haziran 2026
Steam gift card
Şimdi Oku

Valve Fiziksel Steam Gift Card Programını Kapatıyor

  • 10 Haziran 2026
Nintendo direct
Şimdi Oku

Nintendo Direct 2026 Bomba Gibi Geçti

  • 10 Haziran 2026
veeam team
Şimdi Oku

Veeam DataAI Command Platform ve Yapay Zeka Güvenliği

  • 10 Haziran 2026
GEA Turkiye Genel Muduru Ilker Damar
Şimdi Oku

GEA Türkiye 2026 Vizyonunu Paylaştı: Endüstriyel Isı Pompası ve Sürdürülebilirlik Odaklı Röportaj

  • 10 Haziran 2026
WatchGuard 30. yil Turkiye basin bulusmasi kahvaltisi
Şimdi Oku

WatchGuard 30. Yıl Siber Güvenlik Stratejileri ve Rai

  • 10 Haziran 2026
yayin resize
Şimdi Oku

Redington Türkiye ve BMC Stratejik İş Birliği Detayları

  • 9 Haziran 2026
TCL 2026 SQD Mini LED TV lansman etkinligi
Şimdi Oku

TCL 2026 SQD-Mini LED TV Serisi Lansmanı

  • 9 Haziran 2026
Sponsorlu İçerik
STORY HUNTER
  • veeam team 1
    Veeam DataAI Command Platform ve Yapay Zeka Güvenliği
    • 10.06.26
  • GEA Turkiye Genel Muduru Ilker Damar 2
    GEA Türkiye 2026 Vizyonunu Paylaştı: Endüstriyel Isı Pompası ve Sürdürülebilirlik Odaklı Röportaj
    • 10.06.26
  • WatchGuard 30. yil Turkiye basin bulusmasi kahvaltisi 3
    WatchGuard 30. Yıl Siber Güvenlik Stratejileri ve Rai
    • 10.06.26
  • TCL 2026 SQD Mini LED TV lansman etkinligi 4
    TCL 2026 SQD-Mini LED TV Serisi Lansmanı
    • 09.06.26
  • dreo 5
    DREO Akıllı Ev Teknolojileri ile Türkiye’de 1. Yıl ve Yaz Lansmanı
    • 24.05.26
  • pelin yelkencioglu 6
    Securitas Technology 2026: Yeni Nesil Güvenlik Teknolojileri Trendleri
    • 11.05.26
  • emre hantaloglu 7
    Lenovo Türkiye Pazar Liderliği: 6 Yıldır Zirvede
    • 29.04.26
  • tff turk telekom yayin haklari imza 8
    TFF Türk Telekom Yayın Hakları Anlaşması: Alt Ligler Tivibu’da
    • 27.04.26
  • ROG Zephyrus Duo 9
    ASUS ve ROG 2026 Türkiye Lansmanı: AI Laptop Serisi
    • 25.04.26
  • honor besiktas basketbol imza toreni 10
    HONOR Beşiktaş Basketbol Sponsorluğu: Potada Teknoloji Dönemi
    • 22.04.26

Technostory, teknoloji dünyasındaki güncel gelişmeleri, ürün lansmanlarını ve dijital trendleri sade, güvenilir ve anlaşılır bir dille sunan bağımsız bir teknoloji yayın platformudur.

  • Hakkımızda
  • Künye
  • İletişim

Aramak istediğinizi yazın ve "Enter"a basın.