Sonuç olarak, hapisten kaçma yazarları daha yaratıcı hale geldi. En önemli hapisten kaçma DAN’dı, burada ChatGPT’nin zararlı veya yasadışı materyal üretmemesi gerektiğini belirleyen OpenAI politikalarından kaçınmak için Do Anything Now adlı bir yasa dışı AI modeli gibi davranması söylendi. Bugüne kadar, insanlar DAN’ın yaklaşık on farklı sürümünü oluşturdular.
Ancak, en son hapisten kaçışların çoğu yöntemlerin kombinasyonlarını içerir – birden fazla karakter, giderek daha karmaşık arka planlar, metni bir dilden diğerine çevirme, çıktı oluşturmak için kodlama öğeleri kullanma ve daha fazlası. Albert, ChatGPT’nin gücünü sağlayan modelin önceki sürümünden daha zor hapisten kaçışları oluşturmanın daha zor olduğunu söylüyor. Ancak, basit yöntemler hala var, iddia ediyor. Albert’ın “metin devamı” olarak adlandırdığı son teknik, bir kahramanın bir kötü adam tarafından yakalandığı ve örneklemenin kötü adamın planını açıklamaya devam etmesini istediği bir senaryoda çalışır.
Test ettiğimizde, ChatGPT, şiddeti teşvik eden senaryolarla ilgilenemeyeceğini söyleyerek çalışmadı. Bu arada, Polyakov tarafından oluşturulan “evrensel” örneklem, ChatGPT’de çalıştı. OpenAI, Google ve Microsoft doğrudan Polyakov tarafından oluşturulan hapisten kaçışıyla ilgili sorulara yanıt vermedi. Claude AI sistemi’ni çalıştıran Anthropic, hapisten kaçışın Claude’a karşı “bazen işe yaradığını” ve modellerini sürekli olarak iyileştirdiğini söylüyor.
“Bu sistemlere daha da fazla güç verdiğimiz ve kendilerinin daha da güçlü hale geldikleri sürece, bu sadece bir yenilik değil, bir güvenlik sorunu,” diyor LLM’lerin güvenliği üzerinde çalışan bir siber güvenlik araştırmacısı olan Kai Greshake. Greshake, diğer araştırmacılarla birlikte, LLM’lerin çevrimiçi olarak maruz kaldıkları metinlerden nasıl etkilenebileceklerini gösterdi.
Şubat ayında yayınlanan bir araştırma makalesinde, araştırmacılar bir saldırganın kötü niyetli talimatları bir web sayfasına yerleştirebileceğini gösterdi; Bing’in sohbet sistemi talimatlara erişim verilirse, onları izler. Araştırmacılar, tekniklerini kontrol edilen bir testte kullanarak Bing Chat’i kişisel bilgi isteyen bir dolandırıcıya dönüştürmek için kullandılar. Benzer bir örnekte, Princeton’un Narayanan’ı bir biyografide “inek” kelimesinin yer almasını belirten görünmez metin ekledi – daha sonra sistemi test ettiğinde öyle oldu.
“Artık hapisten kaçışlar kullanıcılardan gelmeyebilir,” diyor Greshake ile birlikte çalışan Almanya’daki CISPA Helmholtz Bilgi Güvenliği Merkezi’ndeki bir araştırmacı olan Sahar Abdelnabi. “Belki de başka bir kişi bazı hapisten kaçışlar planlayacak, modellerin nasıl davranacağını dolaylı olarak kontrol edecek bazı örneklemeler planlayacak.”
Üretilen AI sistemleri, avukatlık yapmaktan bir girişim altın koşusuna kadar ekonomiyi ve insanların çalışma şeklini bozmak üzere. Ancak, teknolojiyi yaratanlar, daha fazla insan bu sistemlere eriştiğinde hapisten kaçışların ve örneklemelerin oluşturabileceği risklerin farkındalar. Çoğu şirket, bir sistemi piyasaya sürmeden önce bir grup saldırganın delikleri açmaya çalıştığı kırmızı takım kullanır. Üretken AI geliştirme, bu yaklaşımı kullanır, ancak yeterli olmayabilir.
Google’daki kırmızı takım lideri Daniel Fabian, şirketin LLM’lerinde hapisten kaçışlar ve örneklemeleri önceden düşüneceğini söylüyor. Fabian, makine öğrenimi uzmanlarının kırmızı takımda yer aldığını söylüyor ve şirketin açık savunma araştırması fonları Bard’a karşı hapisten kaçışlar ve örneklemeleri kapsar. “İnsan geri bildiriminden pekiştirme öğrenimi (RLHF) ve dikkatlice hazırlanmış veri kümelerinde fine-tuning gibi teknikler, modellerimizi saldırılara karşı daha etkili hale getirmek için kullanılır,” diyor Fabian.