Google’ın Gemini yapay zekâsı, Anthropic’in Claude modeliyle karşılaştırılıyor. TechCrunch tarafından görülen belgeler, Google’ın çalışanlarının Gemini’nin doğruluk, gerçeklik ve detay seviyesi gibi kriterlerdeki performansını Claude ile kıyasladığını ortaya koyuyor. Çalışanlar, her bir yanıtı değerlendirmek için 30 dakikaya kadar süre alıyor. Bu yöntem, yapay zekâ modellerini rakiplerle karşılaştırma konusunda yaygın bir endüstri uygulamasını yansıtıyor.
Google’ın test platformunda, bazı yanıtların Claude’a ait olduğu belirtiliyor. Hatta bir yanıtın açıkça “Ben Anthropic tarafından oluşturulan Claude’um” dediği görülmüş. Çalışanlar, iki model arasında özellikle güvenlik önlemleri konusunda farklar olduğunu fark etti. Claude, tehlikeli bulduğu sorulara yanıt vermekten kaçınırken, Gemini’nin bazı yanıtlarının ciddi güvenlik ihlallerine yol açtığı rapor edildi.
Anthropic, Claude’un rakip ürünler geliştirmek için kullanılmasını onay olmadan yasaklıyor. Anthropic’e yatırım yapan Google, Claude’un değerlendirme amacıyla kullanımı için izin alınıp alınmadığını doğrulamadı. Google DeepMind, Gemini’yi Anthropic modelleriyle eğitmediğini belirtti ancak yanıtları kıyaslamanın standart bir değerlendirme süreci olduğunu kabul etti.
TechCrunch, Google çalışanlarının uzmanlık alanlarının dışında kalan konularda Gemini’nin yanıtlarını değerlendirdiğini daha önce bildirmişti. Bu durum, özellikle sağlık gibi hassas konularda yapay zekânın yanlış bilgi üretebileceği endişelerine yol açtı. Google’ın Gemini için izlediği değerlendirme yöntemleri eleştirilmeye devam ediyor.