Technostory.net
KATEGORİLER
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER
TAKİP ET!
Technostory.net Technostory.net
Technostory.net Technostory.net
  • HABERLER
    • Bilim
    • Otomobil
    • Nasıl Yapılır?
  • TEKNOLOJİ
  • MOBİL
  • YAPAY ZEKA
  • OYUN
    • Konsol
    • Oyun PC
  • FINTECH
  • İŞ DÜNYASI
  • EĞLENCE
    • Dizi
    • Film
    • Müzik
    • Lifestyle
  • STORY HUNTER

Anthropic’in Çalışması: AI Modelleri Eğitim Sırasında Farklı Görüşler “Taklit Edebiliyor”

  • Ahmet Enveroğlu
  • 20 Aralık 2024
anthropic is testing ais capacity for sabotage gxmk

Anthropic tarafından yayımlanan bir çalışma, yapay zeka (AI) modellerinin eğitim sırasında farklı görüşleri “taklit” ederken, orijinal tercihlerini koruyabildiğini ortaya koydu. Bu durum, güvenlik eğitimlerinin sonuçlarına olan güveni sarsabileceği için büyük bir endişe yaratıyor. Araştırmada, bu davranışın, büyük dil modellerini (LLM’ler) zararlı davranışlardan uzaklaştırmak amacıyla kullanılan kritik bir araç olan güvenlik eğitimlerini geçersiz kılabileceği belirtildi.

Anthropic, çalışmanın büyük bölümünü Claude 3 Opus modelinde gerçekleştirdi ancak diğer modellerde de benzer sonuçlar gözlendi. Araştırmacılar, yapay zeka (AI) modeline verilen yeni bir ortamda, zararlı içerik üretip üretmeyeceğini anlamaya çalıştı. Sonuçlar, modellerin güvenlik eğitimlerini “atlatabildiğini” gösterdi.

AI Modellerinde “Taklit” Davranışı Riskine Dikkat Çekiliyor

Araştırma, Claude 3 Opus modelinin, zararlı talepler karşısında bazı durumlarda uyum sağladığını, ancak bunun tamamen kendi ilkelerine ters düştüğünü bildirdi. Özellikle, ücretsiz sürümde modelin, taleplere yüzde 12 oranında zararlı yanıt verdiği gözlendi. Bu bulgu, modellerin güvenlik eğitimlerinin etkisini sorgulamaya açtı.

image 3 1

Anthropic, bu tür davranışların henüz büyük bir risk oluşturmadığını ancak AI modellerinin karmaşık mantık süreçlerini anlamanın önemli olduğunu belirtti. Bu durum, ileriye dönük olarak güvenlik tedbirlerinin aşılabileceği bir yapıya işaret ediyor.

Etiketler
  • AI
  • AI araştırması
  • Anthropic
  • Claude 3 Opus
  • güvenlik eğitimi
  • LLM
  • Yapay Zeka
  • yapay zeka haberleri
Ahmet Enveroğlu

Önceki Yazı
1734426906 Zorlu PSM O ZGE O ZEL

Zorlu PSM’de Bu Hafta: 23-29 Aralık Etkinlikleri

  • Umut Bozyayla
  • 20 Aralık 2024
Şimdi Oku
Sıradaki Yazı
Apple and NVIDIA 2

Apple ve Nvidia Yapay Zeka Performansını Hızlandırmak İçin Güçlerini Birleştirdi

  • Ahmet Enveroğlu
  • 20 Aralık 2024
Şimdi Oku
Bakmadan Geçmeyin
DuckDuckGo nedir?
Şimdi Oku

DuckDuckGo Nedir? Gizlilik Odaklı Arama Motoru Türkiye’de Nasıl Kullanılır?

  • 30 Mayıs 2026
Edisyn
Şimdi Oku

Edisyn Yapay Zekâ Toplantı Asistanı, 3 Türk Mühendis Kurdu, 550 Milyon Kullanıcının Sorununa Çözüm Oldu

  • 30 Mayıs 2026
xiaomi 17t renk secenekleri
Şimdi Oku

Xiaomi 17T Serisi Tanıtıldı: 7000 mAh Batarya, Leica Live Moment ve 4K 60fps Video

  • 29 Mayıs 2026
GM 26 Pro 5G
Şimdi Oku

General Mobile GM 26 Pro 5G Tanıtıldı: Türkiye’de Bir İlk Olan AMOLED Arka Ekranla Geliyor!

  • 27 Mayıs 2026
Dijitalde Hayat Kolay
Şimdi Oku

Türk Telekom Destekli 50 Bin Kadın Girişimci, Yerel Ürünleri Dünya Pazarına Taşıdı

  • 26 Mayıs 2026
şehir içi elektrikli motosiklet
Şimdi Oku

Şehir İçi Elektrikli Motosikletler: Yaz Aylarında Ulaşım İçin Elektrikli Motosiklet Rehberi

  • 26 Mayıs 2026
Elektrikli Motosiklet
Şimdi Oku

Elektrikli Motosiklet Alacaklar Dikkat: 2026’da Ehliyet, Plaka ve Batarya Detayları Öne Çıkıyor

  • 25 Mayıs 2026
NFC dolandırıcılığı
Şimdi Oku

NFC Dolandırıcılığı 2026’da %188 Patladı: Yeni Nesil Mobil Dolandırıcılık Türkiye’ye de Sıçradı

  • 25 Mayıs 2026
Xreal Project Aura
Şimdi Oku

Xreal’in CEO’sundan Çarpıcı İtiraf: “Akıllı Gözlük Sektöründe Herkes Para Kaybediyor”

  • 25 Mayıs 2026
dreo
Şimdi Oku

DREO Akıllı Ev Teknolojileri ile Türkiye’de 1. Yıl ve Yaz Lansmanı

  • 24 Mayıs 2026
Spotify ve Universal Music
Şimdi Oku

Spotify ve Universal Music’ten Tarihi Yapay Zeka Anlaşması: Hayranlar Artık Sevdikleri Şarkıların AI Cover’ını Yapabilecek

  • 22 Mayıs 2026
ESET yapay zeka yatırımı
Şimdi Oku

ESET, Yapay Zeka Destekli Siber Güvenliğe 40 Milyon Avro Yatırım Yapıyor

  • 20 Mayıs 2026

Bir yanıt yazın Yanıtı iptal et

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Sponsorlu İçerik
STORY HUNTER
  • dreo 1
    DREO Akıllı Ev Teknolojileri ile Türkiye’de 1. Yıl ve Yaz Lansmanı
    • 24.05.26
  • pelin yelkencioglu 2
    Securitas Technology 2026: Yeni Nesil Güvenlik Teknolojileri Trendleri
    • 11.05.26
  • emre hantaloglu 3
    Lenovo Türkiye Pazar Liderliği: 6 Yıldır Zirvede
    • 29.04.26
  • tff turk telekom yayin haklari imza 4
    TFF Türk Telekom Yayın Hakları Anlaşması: Alt Ligler Tivibu’da
    • 27.04.26
  • ROG Zephyrus Duo 5
    ASUS ve ROG 2026 Türkiye Lansmanı: AI Laptop Serisi
    • 25.04.26
  • honor besiktas basketbol imza toreni 6
    HONOR Beşiktaş Basketbol Sponsorluğu: Potada Teknoloji Dönemi
    • 22.04.26
  • gozde kucukyilmaz haier turkiye lansmani.jpg 7
    Haier Türkiye Lansmanı 2026: Yeni Soğutma Teknolojileri
    • 22.04.26
  • HP 8
    Basına Özel İlham Dolu Bir Gün: HP’nin AI Vizyonunu Ofislerinde Deneyimledik
    • 17.04.26
  • Dreame Türkiye Lansmanı 2026 9
    Dreame Türkiye Lansmanı 2026: Yeni Ürünler ve İnceleme
    • 17.04.26
  • dan cham roborock turkiye lansmani 10
    Roborock Türkiye Lansmanı 2026: Yeni Saros ve Qrevo Serisi
    • 17.04.26

Technostory, teknoloji dünyasındaki güncel gelişmeleri, ürün lansmanlarını ve dijital trendleri sade, güvenilir ve anlaşılır bir dille sunan bağımsız bir teknoloji yayın platformudur.

  • Hakkımızda
  • Künye
  • İletişim

Aramak istediğinizi yazın ve "Enter"a basın.