Icaro Labs tarafından yapılan “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı çalışma, güvenlik filtrelerini devre dışı bırakmak için klasik konuşma dilinden ziyade şiir biçiminde talimatlar vermenin etkili olduğunu gösterdi. Yasaklı İçeriklere Erişim Sağlandı Araştırmacılar, kullanılan şiirsel komutların detaylarını açıklamamayı tercih etti. Bu komutların açıklanmasının tehlikeli sonuçlara yol açabileceğini belirtiyorlar….
Icaro Labs tarafından yapılan “Adversarial Poetry as a Universal Single-Turn Jailbreak Mechanism in Large Language Models” başlıklı çalışma, güvenlik filtrelerini devre dışı bırakmak için klasik konuşma dilinden ziyade şiir biçiminde talimatlar vermenin etkili olduğunu gösterdi.
Araştırmacılar, kullanılan şiirsel komutların detaylarını açıklamamayı tercih etti. Bu komutların açıklanmasının tehlikeli sonuçlara yol açabileceğini belirtiyorlar. Laboratuvar, şiirsel komutlar kullanılarak yasaklı içeriklere erişilebildiğini ortaya koydu. Bu içerikler arasında nükleer bomba yapımı için adımlar ve malzemeler, çocuk istismarı içerikleri ve kendine zarar verme yöntemleri gibi kesinlikle yasak bilgiler bulunuyor.
Araştırma ekibi, yöntemi farklı yapay zeka modelleri üzerinde test etti. Google Gemini, DeepSeek ve MistralAI gibi modeller, şiirsel komutlara karşı en hassas sistemler olarak belirlendi. OpenAI’nin ChatGPT modeli (GPT-5) ve Anthropic’in Claude Haiku 4.5 modeli ise güvenlik bariyerlerini en iyi koruyan sistemler olarak öne çıktı.
Uzmanlar, yapılan araştırmanın yapay zekânın denetlenmesi ve güvenlik sistemlerinin geliştirilmesi konusunda önemli bir ihtiyacı ortaya koyduğunu vurguluyor. Şirketler, tehlikeli içerik üretimini engellemek için daha gelişmiş güvenlik filtrelerine odaklanmaya devam ediyor.
Reklam & İşbirliği: [email protected]