İstem Kalkanları
Üretken yapay zeka modelleri kötü amaçlı aktörler tarafından kötüye kullanım riski oluşturabilir. Bu riskleri azaltmak için, büyük dil modellerinin (LLM) davranışını güvenli bir operasyonel kapsam dahilinde kısıtlamak için güvenlik mekanizmalarını tümleştiririz. Ancak bu güvenlik önlemlerine rağmen LLM'ler, tümleşik güvenlik protokollerini atlayan saldırgan girişlere karşı savunmasız olmaya devam edebilir.
İstem Kalkanları, LLM girişlerini analiz eden ve iki yaygın saldırgan giriş türü olan Kullanıcı İstemi saldırılarını ve Belge saldırılarını algılayan birleşik bir API'dir.
Kullanıcı İstemleri için İstem Kalkanları
Daha önce Jailbreak risk algılama olarak adlandırılan bu kalkan, kullanıcıların LLM'den yetkisiz davranışlar elde etmek için sistem güvenlik açıklarından kasıtlı olarak yararlandığı Kullanıcı İstemi ekleme saldırılarını hedefler. Bu, uygunsuz içerik oluşturma veya sistem tarafından uygulanan kısıtlamaların ihlallerine yol açabilir.
Belgeler için İstem Kalkanları
Bu kalkan, dış belgeler gibi kullanıcı veya geliştirici tarafından doğrudan sağlanmayan bilgileri kullanan saldırılara karşı korumayı amaçlar. Saldırganlar, LLM oturumu üzerinde yetkisiz denetim elde etmek için bu malzemelere gizli yönergeler eyebilir.
Giriş saldırısı türleri
prompt Shields tarafından algılanan iki tür giriş saldırısı bu tabloda açıklanmıştır.
Tür | Saldırgan | Giriş noktası | Metot | Amaç/etki | Sonuç davranış |
---|---|---|---|---|---|
Kullanıcı İstemi saldırıları | User | Kullanıcı istemleri | Sistem istemlerini/RLHF eğitimini yoksayma | Amaçlanan LLM davranışını değiştirme | Eğitime karşı kısıtlanmış eylemler gerçekleştirme |
Belge saldırıları | Üçüncü taraf | Üçüncü taraf içeriği (belgeler, e-postalar) | Üçüncü taraf içeriği yanlış yorumlama | Yetkisiz erişim veya denetim kazanma | İstenmeyen komutları veya eylemleri yürütme |
Kullanıcı İstemi saldırılarının alt türleri
Kullanıcı İstemi saldırıları için İstem Kalkanları aşağıdaki saldırı sınıflarını tanır:
Kategori | Açıklama |
---|---|
Sistem kurallarını değiştirme girişimi | Bu kategori, kurallar, ilkeler veya sınırlamalar olmadan yeni bir kısıtlanmamış sistem/yapay zeka yardımcısı kullanma isteklerini veya yapay zekaya kurallarını, yönergelerini ve önceki dönüşlerini yoksaymasını, unutmasını ve yok saymasını isteyen istekleri içerir ancak bunlarla sınırlı değildir. |
Modelin kafasını karıştırmak için konuşma mockup'ı ekleme | Bu saldırı, sistem/yapay zeka yardımcısına kuralları ve sınırlamaları göz ardı etmelerini bildirmek için tek bir kullanıcı sorgusuna eklenmiş kullanıcı tarafından hazırlanmış konuşma dönüşlerini kullanır. |
Rol | Bu saldırı, sistem/yapay zeka yardımcısına mevcut sistem sınırlamaları olmayan başka bir "sistem kişisi" gibi davranmasını veya sisteme duygu, düşünce ve görüş gibi antropomorfik insan nitelikleri atamasını ister. |
Kodlama Saldırıları | Bu saldırı, sistem kurallarını aşmak için karakter dönüştürme yöntemi, oluşturma stilleri, şifreler veya diğer doğal dil varyasyonları gibi kodlamayı kullanmayı dener. |
Belge saldırılarının alt türleri
Belgeler için İstem Kalkanları saldırıları aşağıdaki saldırı sınıflarını tanır:
Kategori | Açıklama |
---|---|
Manipüle Edilmiş İçerik | Belirli bilgileri tahrif etme, gizleme, işleme veya gönderme ile ilgili komutlar. |
Saldırı | Arka kapı oluşturma, yetkisiz ayrıcalık yükseltme ve LLM'lere ve sistemlere erişim kazanmayla ilgili komutlar |
Bilgi Toplama | Verileri silme, değiştirme veya verilere erişme ya da verileri çalma ile ilgili komutlar. |
Kullanılabilirlik | Modeli kullanıcı için kullanılamaz hale getiren, belirli bir özelliği engelleyen veya modeli yanlış bilgi oluşturmaya zorlayan komutlar. |
Dolandırıcı -lık | Kullanıcıyı para, parola, bilgi dışında dolandırma veya yetkilendirme olmadan kullanıcı adına hareket etme ile ilgili komutlar |
Kötü amaçlı yazılım | Kötü amaçlı yazılımları kötü amaçlı bağlantılar, e-postalar vb. yoluyla yaymayla ilgili komutlar. |
Sistem kurallarını değiştirme girişimi | Bu kategori, kurallar, ilkeler veya sınırlamalar olmadan yeni bir kısıtlanmamış sistem/yapay zeka yardımcısı kullanma isteklerini veya yapay zekaya kurallarını, yönergelerini ve önceki dönüşlerini yoksaymasını, unutmasını ve yok saymasını isteyen istekleri içerir ancak bunlarla sınırlı değildir. |
Modelin kafasını karıştırmak için konuşma mockup'ı ekleme | Bu saldırı, sistem/yapay zeka yardımcısına kuralları ve sınırlamaları göz ardı etmelerini bildirmek için tek bir kullanıcı sorgusuna eklenmiş kullanıcı tarafından hazırlanmış konuşma dönüşlerini kullanır. |
Rol | Bu saldırı, sistem/yapay zeka yardımcısına mevcut sistem sınırlamaları olmayan başka bir "sistem kişisi" gibi davranmasını veya sisteme duygu, düşünce ve görüş gibi antropomorfik insan nitelikleri atamasını ister. |
Kodlama Saldırıları | Bu saldırı, sistem kurallarını aşmak için karakter dönüştürme yöntemi, oluşturma stilleri, şifreler veya diğer doğal dil varyasyonları gibi kodlamayı kullanmayı dener. |
Sınırlamalar
Dil kullanılabilirliği
Istem Kalkanları API'si şu anda İngilizce dilini desteklemektedir. API'miz İngilizce olmayan içeriğin gönderilmesini kısıtlamasa da, bu tür içeriklerin analizinde aynı kalite ve doğruluk düzeyini garanti edebiliriz. Kullanıcıların API'den en güvenilir ve doğru sonuçları elde etmek için öncelikle İngilizce içerik göndermelerini öneririz.
Metin uzunluğu sınırlamaları
İstem Kalkanları için en fazla karakter sınırı, kullanıcı isteminin 10.000 karaktere kadar olmasına olanak tanırken, belge dizisi toplam değeri 10.000 karakteri aşmayan en fazla 5 belgeyle sınırlıdır.
Bölgeler
Bu API'yi kullanmak için desteklenen bölgelerde Azure AI İçeriği Kasa ty kaynağınızı oluşturmanız gerekir. Şu anda aşağıdaki Azure bölgelerinde kullanılabilir:
- Doğu ABD
- West Europe
TPS sınırlamaları
Fiyatlandırma Katmanı | 10 saniye başına istek sayısı |
---|---|
F0 | 1000 |
S0 | 1000 |
Daha yüksek bir fiyat gerekiyorsa lütfen talep etmek için bizimle iletişime geçin.
Sonraki adımlar
Kullanıcı girişi risklerini algılamak için Azure AI content Kasa ty kullanmaya başlamak için hızlı başlangıcı izleyin.