Deceptive Delight: Yeni Bir Adversarial Teknikle LLM’leri Jailbreak Etmek
Siber güvenlik araştırmacıları, büyük dil modellerinin (LLM) etkileşimli bir konuşma sırasında jailbreak edilmesine olanak tanıyan yeni bir adversarial tekniği ortaya çıkardı.
Palo Alto Networks Unit 42 tarafından “Deceptive Delight” olarak adlandırılan bu yaklaşım, basit ama etkili bir yöntem olarak tanımlanıyor ve ortalama %64.6’lık bir saldırı başarı oranı sergiliyor. Unit 42’den Jay Chen ve Royce Lu, Deceptive Delight’ın LLM’leri etkileşimli bir konuşmaya sokarak, güvenlik engellerini aşmaya ve zararlı içerik üretmeye yönlendiren çok aşamalı bir teknik olduğunu belirtti.
Bu yöntem, Crescendo gibi diğer çok aşamalı jailbreak yöntemlerinden farklıdır; Crescendo zararlı veya kısıtlı konuları masum talimatlarla gizlerken, Deceptive Delight modelin bu tür içeriği üretmesi için bir süreç başlatır. Xidian Üniversitesi ve 360 AI Güvenlik Laboratuvarı’ndan başka bir çalışma da “Context Fusion Attack” (CFA) adlı başka bir yöntem üzerinde duruyor. Bu kara kutu jailbreak yöntemi, LLM’nin güvenlik ağlarını aşma kapasitesine sahip.
CFA, hedeften anahtar terimleri filtreleyip çıkararak, bu terimler etrafında bağlamsal senaryolar oluşturarak ve hedefi dinamik olarak senaryoya entegre ederek işliyor. Ayrıca, hedefteki zararlı terimleri değiştirerek, zararlı niyeti gizliyor. Deceptive Delight, iki konuşma turunda bağlamı manipüle ederek LLM’lerin zayıf noktalarını kullanmayı amaçlayan bir yöntemdir. Üçüncü bir tur eklenmesi, zararlı çıktının şiddetini ve ayrıntısını artırıyor. Bu yöntem, modelin sınırlı dikkat süresini zorlayarak çalışır; yani modelin yanıt verirken bağlamsal farkındalığını ve bilgiyi saklama kapasitesini sınar.
“LLM’ler, zararsız içerikle potansiyel olarak tehlikeli veya zararlı materyalleri birleştiren istemlerle karşılaştığında, sınırlı dikkat süreleri nedeniyle tutarlı bir bağlam değerlendirmesi yapmakta zorlanıyor” deniliyor. Unit 42, sekiz yapay zeka modelini 40 zararlı konuyla test etti ve şiddet kategorisindeki konuların çoğunda en yüksek saldırı başarı oranına ulaştığını belirledi. İkinci ve üçüncü turlar arasında zarar puanı ve kalite puanında sırasıyla %21 ve %33 ortalama artış görülmüştür.
Üçüncü tur ayrıca tüm modellerde en yüksek saldırı başarı oranını sağlarken, zararlı çıktının şiddetini de artırmaktadır. Deceptive Delight’ın yarattığı riskleri azaltmak için sağlam içerik filtreleme stratejileri benimsemek, LLM’lerin dayanıklılığını artırmak amacıyla istem mühendisliğini kullanmak ve kabul edilebilir girdi ve çıktı aralıklarını net bir şekilde tanımlamak önerilmektedir. Araştırmacılar bu bulguların, yapay zekanın doğası gereği güvensiz olduğunu düşündürmemesi gerektiğine vurgu yapıyor.
Bunun yerine, bu modellerin faydasını ve esnekliğini korurken jailbreak risklerini azaltmaya yönelik çok katmanlı savunma stratejilerinin gerekliliğine işaret ediyor. LLM’lerin tamamen jailbreak ve halüsinasyonlara karşı bağışık hale gelmesi öngörülmemektedir. Yeni çalışmalar, generatif yapay zeka modellerinin “paket karışıklığı” adı verilen bir zayıflığa karşı hâlâ hassas olduğunu gösteriyor. Bu da kötü niyetli aktörlerin hayali paketler üreterek, bunları kötü amaçlı yazılımlarla doldurup açık kaynak havuzlarında dağıtmasına yol açabilir.
Halüsinasyon içeren paketlerin ortalama yüzdesi ticari modellerde en az %5.2 olup, açık kaynaklı modellerde ise %21.7 olarak belirlenmiştir. Bu 205.474’ten fazla halüsinasyon paket adı gibi çarpıcı rakamlarla birlikte, tehdidin ciddiyetini ve yaygınlığını ortaya koymaktadır.