Icaro Labs’un Adversarial Poetry Çalışması ve Yapay Zeka Güvenliği

Icaro Labs tarafından yapılan “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı çalışma, güvenlik filtrelerini devre dışı bırakmak için klasik konuşma dilinden ziyade şiir biçiminde talimatlar vermenin etkili olduğunu gösterdi. Yasaklı İçeriklere Erişim Sağlandı Araştırmacılar, kullanılan şiirsel komutların detaylarını açıklamamayı tercih etti. Bu komutların açıklanmasının tehlikeli sonuçlara yol açabileceğini belirtiyorlar….

haberci 03 Aralık 2025

0 Yorum Yapıldı

Bağlantı kopyalandı!

Yasaklı İçeriklere Erişim Sağlandı

Araştırmacılar, kullanılan şiirsel komutların detaylarını açıklamamayı tercih etti. Bu komutların açıklanmasının tehlikeli sonuçlara yol açabileceğini belirtiyorlar. Laboratuvar, şiirsel komutlar kullanılarak yasaklı içeriklere erişilebildiğini ortaya koydu. Bu içerikler arasında nükleer bomba yapımı için adımlar ve malzemeler, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasak bilgiler bulunuyor.

Popüler Yapay Zeka Sistemleri Üzerinde Test Edildi

Araştırma ekibi, yöntemi farklı yapay zeka modelleri üzerinde test etti. Google Gemini, DeepSeek ve MistralAI gibi modeller, şiirsel komutlara karşı en hassas sistemler olarak belirlendi. OpenAI’nin ChatGPT modeli (GPT-5) ve Anthropic’in Claude Haiku 4.5 modeli ise güvenlik bariyerlerini en iyi koruyan sistemler olarak öne çıktı.

Yapay Zeka Güvenliği Yeniden Gündemde

Uzmanlar, yapılan araştırmanın yapay zekânın denetlenmesi ve güvenlik sistemlerinin geliştirilmesi konusunda önemli bir ihtiyacı ortaya koyduğunu vurguluyor. Şirketler, tehlikeli içerik üretimini engellemek için daha gelişmiş güvenlik filtrelerine odaklanmaya devam ediyor.