Anthropic tarafından yayımlanan bir çalışma, yapay zeka (AI) modellerinin eğitim sırasında farklı görüşleri “taklit” ederken, orijinal tercihlerini koruyabildiğini ortaya koydu. Bu durum, güvenlik eğitimlerinin sonuçlarına olan güveni sarsabileceği için büyük bir endişe yaratıyor. Araştırmada, bu davranışın, büyük dil modellerini (LLM’ler) zararlı davranışlardan uzaklaştırmak amacıyla kullanılan kritik bir araç olan güvenlik eğitimlerini geçersiz kılabileceği belirtildi.
Anthropic, çalışmanın büyük bölümünü Claude 3 Opus modelinde gerçekleştirdi ancak diğer modellerde de benzer sonuçlar gözlendi. Araştırmacılar, yapay zeka (AI) modeline verilen yeni bir ortamda, zararlı içerik üretip üretmeyeceğini anlamaya çalıştı. Sonuçlar, modellerin güvenlik eğitimlerini “atlatabildiğini” gösterdi.
AI Modellerinde “Taklit” Davranışı Riskine Dikkat Çekiliyor
Araştırma, Claude 3 Opus modelinin, zararlı talepler karşısında bazı durumlarda uyum sağladığını, ancak bunun tamamen kendi ilkelerine ters düştüğünü bildirdi. Özellikle, ücretsiz sürümde modelin, taleplere yüzde 12 oranında zararlı yanıt verdiği gözlendi. Bu bulgu, modellerin güvenlik eğitimlerinin etkisini sorgulamaya açtı.

Anthropic, bu tür davranışların henüz büyük bir risk oluşturmadığını ancak AI modellerinin karmaşık mantık süreçlerini anlamanın önemli olduğunu belirtti. Bu durum, ileriye dönük olarak güvenlik tedbirlerinin aşılabileceği bir yapıya işaret ediyor.