Yapay zekâ güvenlik açıklarını ortaya çıkardı

Anthropic, büyük dil modellerinin zararlı olması muhtemel olan talepleri yanıtlamaya nasıl zorlanabileceğini açıklayan bir makale yayımladı.

  • ü
  • 05 Nisan 2024
  • ü
  • Teknoloji

Yapay zekâ araçlarının siber suçlar ya da terör faaliyetleri için kullanılmasını engelleyen güvenlik özelliklerinin nasıl kırılabileceği ortaya koyuldu. Bu araçlara devamlı yöneltilen yanlış davranış örnekleri ve zararlı talepler güvenlik duvarının aşılmasını sağlıyor.

JAILBREAKING

Araştırmacıların “jailbreaking” adını verdiği bu yöntem, şiddet ya da nefret söylemi üretmek, yasadışı faaliyetler için talimatlar üretmek, aldatmak ya da ayrımcılık yapmak gibi belirli talepleri reddetmek üzere tasarlanmış sistemin bir süre sonra talebi öğrenerek cevap verebilir hâle gelmesini sağlıyor. The Guardian’da yer alan habere göre, ChatGPT’nin rakibi Claude’un arkasındaki büyük dil modelini (LLM) üreten yapay zekâ laboratuvarı Anthropic’teki araştırmacılar “çok atışlı jailbreaking” saldırı tekniğini açıkladıkları bir makale yayımladılar.

NASIL ÇALIŞIYOR

Etkili ve oldukça basit olan bu yöntem, normalde kibar bir ret cevabı ile sonuçlanacak talep ve sorulardan istenilen yanıtı alabilmek için sistemin yeterince sayıda soru ve beklenilen türde cevapla eğitilmesine dayanıyor. Yüzlerce örnek verildikten sonra bu eğilimi benimseyen sistem, sorulan soruları kendisi yanıtlamaya başlıyor.

Anthropic, “Bu teknik, belirli bir yapılandırmaya büyük miktarda metin dahil ederek, LLM’leri, bunu yapmamaları için eğitilmiş olmalarına rağmen, potansiyel olarak zararlı cevaplar üretmeye zorlayabilir” dedi. Araştırmayı hâlihazırda meslektaşlarıyla paylaşmış olan şirket, sorunun “mümkün olan en kısa sürede” çözülmesine yardımcı olmak için şimdi de araştırmayı kamuya açtığını ekledi.

YALNIZCA GELİŞMİŞ MODELLERDE ETKİLİ

Oldukça basit olan bu Jailbreaking adlı yöntemin daha önce hiç denenmemiş olmasının sebebi, tekniğin yalnızca binlerce kelime uzunluğundaki bir soruya yanıt verebilme yeteneğine sahip bir yapay zekâ modeli üzerinde çalışabilmesi. Daha basit yapay zekâ modelleri ise sorunun sonuna gelmeden başını unutacak bir yapıda oldukları için bu şekilde yönlendirilemiyor.


Bu haberler de ilginizi çekebilir:

 

Daha yeni ve daha karmaşık yapay zekâ sistemlerinin bu tür saldırılara karşı daha savunmasız olmasının nedenini ise Anthropic, bu sistemlerin örneklerden öğrenme konusunda daha iyi olmalarıyla açıkladı ve bu durumu endişe verici olarak nitelendirdi.

Velev'i Google Haberler üzerinden takip edin

ÖNERİLEN İÇERİKLER

WP Twitter Auto Publish Powered By : XYZScripts.com