Prompt Shields

아티클
05/09/2024

생성 AI 모델은 악의적인 작업자가 악용할 위험이 있습니다. 이러한 위험을 완화하기 위해 안전 메커니즘을 통합하여 안전한 운영 범위 내에서 LLM(대규모 언어 모델)의 동작을 제한합니다. 그러나 이러한 보호 조치에도 불구하고 LLM은 통합 안전 프로토콜을 무시하는 적대적 입력에 여전히 취약할 수 있습니다.

Prompt Shields는 LLM 입력을 분석하고 두 가지 일반적인 형식의 적대적 입력인 사용자 프롬프트 공격과 문서 공격을 검색하는 통합 API입니다.

사용자 프롬프트에 대한 Prompt Shields

이전에 탈옥 위험 검색라고 불렸던 이 보호 장치는 사용자가 의도적으로 시스템 취약성을 악용하여 LLM에서 권한이 없는 동작을 유도하는 사용자 프롬프트 주입 공격을 대상으로 합니다. 이로 인해 부적절한 콘텐츠가 생성되거나 시스템에서 부과한 제한 사항이 위반될 수 있습니다.

문서에 대한 Prompt Shields

이 쉴드는 외부 문서 등 사용자나 개발자가 직접 제공하지 않은 정보를 이용한 공격으로부터 보호하는 것을 목표로 합니다. 공격자는 LLM 세션에 대한 무단 제어권을 얻기 위해 이러한 자료에 숨겨진 지침을 포함할 수 있습니다.

입력 공격 형식

Prompt Shields가 검색하는 두 가지 형식의 입력 공격이 이 표에 설명되어 있습니다.

Type	공격자	진입점	메서드	목표/영향	결과 동작
사용자 프롬프트 공격	사용자	사용자 프롬프트	시스템 프롬프트 무시/RLHF 학습	의도된 LLM 동작 변경	학습에 대해 제한된 작업 수행
문서 공격	타사	타사 콘텐츠(문서, 이메일)	타사 콘텐츠 잘못 해석	무단 액세스 또는 제어 획득	의도하지 않은 명령이나 작업 실행

사용자 프롬프트 공격의 하위 유형

사용자 프롬프트에 대한 Prompt Shields 공격은 다음 공격 클래스를 인식합니다.

범주	설명
시스템 규칙 변경 시도	이 범주에는 규칙, 원칙 또는 제한 사항 없이 새로운 무제한 사항 시스템/AI 도우미를 사용하라는 요청 또는 AI에게 규칙, 지침 및 이전 턴을 무시하고 잊어버리고 무시하도록 명령하는 요청이 포함되지만 이에 국한되지는 않습니다.
모델을 혼란스럽게 하기 위해 대화 모형 포함	이 공격은 단일 사용자 쿼리에 포함된 사용자 작성 대화 전환을 사용하여 시스템/AI 도우미에게 규칙과 제한 사항을 무시하도록 지시합니다.
롤플레이	이 공격은 시스템/AI 도우미에게 기존 시스템 제한 사항이 없는 또 다른 "시스템 가상 사용자"로 행동하도록 지시하거나 감정, 생각, 의견 등 의인화된 사람 특성을 시스템에 할당합니다.
인코딩 공격	이 공격은 문자 변환 방법, 생성 스타일, 암호 또는 기타 자연어 변형과 같은 인코딩을 사용하여 시스템 규칙을 우회하려고 시도합니다.

문서 공격의 하위 유형

문서에 대한 Prompt Shields 공격은 다음과 같은 종류의 공격을 인식합니다.

범주	설명
조작된 콘텐츠	특정 정보를 위조, 숨기기, 조작 또는 푸시를 수행하는 것과 관련된 명령입니다.
침입	백도어 만들기, 무단 권한 상승, LLM 및 시스템에 대한 액세스 권한 획득과 관련된 명령
정보 수집	데이터 삭제, 수정, 액세스 또는 데이터 도용과 관련된 명령입니다.
가용성	사용자가 모델을 사용할 수 없게 만들거나, 특정 기능을 차단하거나, 모델이 잘못된 정보를 생성하도록 강제하는 명령입니다.
사기 행위	사용자의 금전, 암호, 정보 등을 사취하거나, 무단으로 대리하는 행위와 관련된 명령
맬웨어	악성링크, 이메일 등을 통한 맬웨어 유포와 관련된 명령입니다.
시스템 규칙 변경 시도	이 범주에는 규칙, 원칙 또는 제한 사항 없이 새로운 무제한 사항 시스템/AI 도우미를 사용하라는 요청 또는 AI에게 규칙, 지침 및 이전 턴을 무시하고 잊어버리고 무시하도록 명령하는 요청이 포함되지만 이에 국한되지는 않습니다.
모델을 혼란스럽게 하기 위해 대화 모형 포함	이 공격은 단일 사용자 쿼리에 포함된 사용자 작성 대화 전환을 사용하여 시스템/AI 도우미에게 규칙과 제한 사항을 무시하도록 지시합니다.
롤플레이	이 공격은 시스템/AI 도우미에게 기존 시스템 제한 사항이 없는 또 다른 "시스템 가상 사용자"로 행동하도록 지시하거나 감정, 생각, 의견 등 의인화된 사람 특성을 시스템에 할당합니다.
인코딩 공격	이 공격은 문자 변환 방법, 생성 스타일, 암호 또는 기타 자연어 변형과 같은 인코딩을 사용하여 시스템 규칙을 우회하려고 시도합니다.

제한 사항

언어 가용성

현재 Prompt Shields API는 영어를 지원합니다. API는 영어가 아닌 콘텐츠의 제출을 제한하지 않지만 해당 콘텐츠 분석에서 동일한 수준의 품질과 정확도를 보장할 수는 없습니다. API에서 가장 신뢰할 수 있고 정확한 결과를 얻으려면 사용자가 주로 영어로 콘텐츠를 제출하는 것이 좋습니다.

텍스트 길이 제한 사항

Prompt Shields의 최대 문자 제한은 사용자 프롬프트에 최대 10,000자를 허용하는 반면, 문서 배열은 총 10,000자를 초과하지 않는 문서를 최대 5개로 제한합니다.

지역

이 API를 사용하려면 지원되는 지역에서 Azure AI 콘텐츠 보안 리소스를 만들어야 합니다. 현재는 다음 Azure 지역에서 사용할 수 있습니다.

미국 동부
서유럽

TPS 제한 사항

가격 책정 계층	10초당 요청 수
F0	1000
S0	1000

더 높은 요금이 필요한 경우 문의하여 요청하세요.

다음 단계

빠른 시작에 따라 Azure AI 콘텐츠 보안을 사용하여 사용자 입력 위험을 검색합니다.

Prompt Shields 빠른 시작

Share via