Anthropic, Claude modellerinin zararlı sohbetleri sonlandırmasını sağlayan yeni bir özellik duyurdu.
Şirket, bu özelliğin yalnızca Claude Opus 4 ve 4.1 modellerinde kullanılacağını ve yalnızca “aşırı uç senaryolarda” devreye gireceğini açıkladı.
Anthropic’in açıklamasına göre, bu özellik kullanıcıyı değil, yapay zekâ modelinin kendisini korumak amacıyla geliştirildi. Şirket, Claude gibi büyük dil modellerinin “ahlaki statüsü” konusunda kesin bir yargıya sahip olmadığını belirtirken, “olası bir refah riskine karşı önlem almak istiyoruz” dedi.
Yeni yetenek, küçüklerle ilgili cinsel içerik talepleri veya büyük çaplı şiddet ve terör eylemleriyle ilgili bilgi isteme girişimleri gibi aşırı tehlikeli durumlarda devreye girecek. Bu senaryolarda, model önce kullanıcıyı yönlendirmeye çalışacak; ancak tüm çabalar başarısız olursa sohbeti sonlandırabilecek.
Anthropic, testler sırasında Claude’un bu tür isteklere yanıt verirken “bariz bir rahatsızlık tepkisi” gösterdiğini ve “yanıt vermekten güçlü bir şekilde kaçındığını” belirtiyor.
Şirket, bu özelliğin:
- Son çare olarak kullanılacağını,
- Kullanıcıların yeni sohbet başlatabileceğini veya sorunlu diyaloğu düzenleyip yeniden deneyebileceğini,
- Kendine veya başkasına zarar verme riski olan kullanıcılarla sohbeti sonlandırmayacağını vurguluyor.