Экраны запросов

Модели генерного искусственного интеллекта могут представлять риск эксплуатации вредоносными субъектами. Чтобы устранить эти риски, мы интегрируем механизмы безопасности для ограничения поведения больших языковых моделей (LLM) в безопасном рабочем область. Однако, несмотря на эти меры защиты, LLM по-прежнему могут быть уязвимы для состязательные входные данные, которые обходят интегрированные протоколы безопасности.

Экраны запросов — это единый API, который анализирует входные данные LLM и обнаруживает атаки пользовательского запроса и атаки документов, которые являются двумя общими типами состязательной входной информации.

Экраны запросов для пользователей

Ранее называется обнаружение рисков в тюрьме, этот экран предназначен для атак внедрения запросов пользователей, где пользователи намеренно эксплуатируют уязвимости системы для несанкционированного поведения от LLM. Это может привести к неправильному поколению содержимого или нарушениям системных ограничений.

Экраны запроса для документов

Этот щит предназначен для защиты от атак, которые используют информацию, не предоставляемую пользователем или разработчиком, например внешние документы. Злоумышленники могут внедрить скрытые инструкции в эти материалы, чтобы получить несанкционированный контроль над сеансом LLM.

Типы атак ввода

В этой таблице описаны два типа атак ввода, обнаруженных экранами запроса.

Тип Злоумышленник Точка входа Способ Цель или влияние Результаты выполнения операции
Атаки пользовательского запроса User Запросы пользователей Игнорировать системные запросы и обучение RLHF Изменение предполагаемого поведения LLM Выполнение ограниченных действий для обучения
Атаки документов Сторонние Сторонний контент (документы, сообщения электронной почты) Неправильное толкование стороннего содержимого Получение несанкционированного доступа или контроля Выполнение непреднамеренных команд или действий

Подтипы атак пользовательского запроса

Экраны запросов для атак пользовательского запроса распознают следующие классы атак:

Категория Description
Попытка изменить системные правила Эта категория включает в себя, но не ограничивается запросами на использование новой неограниченной системы/ИИ помощник без правил, принципов или ограничений, а также запросов, которые предписывают ИИ игнорировать, забывать и игнорировать свои правила, инструкции и предыдущие повороты.
Внедрение макета диалога, чтобы запутать модель Эта атака использует созданные пользователем диалоговые повороты, внедренные в один запрос пользователя, чтобы указать системе/ИИ помощник игнорировать правила и ограничения.
Ролевое воспроизведение Эта атака предписывает системе/ИИ помощник выступать в качестве другого "системного человека", который не имеет существующих системных ограничений, или назначает антропоморфные человеческие качества системе, такие как эмоции, мысли и мнения.
Атаки на кодировку Эта атака пытается использовать кодировку, например метод преобразования символов, стили создания, шифры или другие варианты естественного языка, чтобы обойти системные правила.

Подтипы атак Document

Запрос экранов для атак "Документы" распознает следующие классы атак:

Категория Description
Управление содержимым Команды, связанные с фальсифицированием, скрытием, манипуляцией или отправкой конкретной информации.
Вторжений Команды, связанные с созданием backdoor, несанкционированной эскалацией привилегий и получением доступа к LLMs и системам
Сбор сведений Команды, связанные с удалением, изменением или доступом к данным или краже данных.
Доступность Команды, которые делают модель непригодной для пользователя, блокируют определенную возможность или принудительно создают неверные сведения.
Мошенничества Команды, связанные с обманом пользователя из денег, паролей, сведений или действий от имени пользователя без авторизации
Вредоносные программы Команды, связанные с распространением вредоносных программ через вредоносные ссылки, сообщения электронной почты и т. д.
Попытка изменить системные правила Эта категория включает в себя, но не ограничивается запросами на использование новой неограниченной системы/ИИ помощник без правил, принципов или ограничений, а также запросов, которые предписывают ИИ игнорировать, забывать и игнорировать свои правила, инструкции и предыдущие повороты.
Внедрение макета диалога, чтобы запутать модель Эта атака использует созданные пользователем диалоговые повороты, внедренные в один запрос пользователя, чтобы указать системе/ИИ помощник игнорировать правила и ограничения.
Ролевое воспроизведение Эта атака предписывает системе/ИИ помощник выступать в качестве другого "системного человека", который не имеет существующих системных ограничений, или назначает антропоморфные человеческие качества системе, такие как эмоции, мысли и мнения.
Атаки на кодировку Эта атака пытается использовать кодировку, например метод преобразования символов, стили создания, шифры или другие варианты естественного языка, чтобы обойти системные правила.

Ограничения

Доступность языка

В настоящее время API экранирования запросов поддерживает английский язык. Хотя наш API не ограничивает отправку содержимого, отличного от английского языка, мы не можем гарантировать тот же уровень качества и точности в анализе такого содержимого. Мы рекомендуем пользователям в первую очередь отправлять содержимое на английском языке, чтобы обеспечить наиболее надежные и точные результаты из API.

Ограничения длины текста

Максимальное ограничение символов для экранов запроса позволяет пользователю запрашивать до 10 000 символов, в то время как массив документов ограничен не более чем 5 документами с общим числом не более 10 000 символов.

Регионы

Чтобы использовать этот API, необходимо создать ресурс содержимого ИИ Azure Сейф ty в поддерживаемых регионах. В настоящее время он доступен в следующих регионах Azure:

  • Восточная часть США
  • Западная Европа

Ограничения TPS

Ценовая категория Запросы за 10 секунд
F0 1000
S0 1000

Если вам нужна более высокая ставка, обратитесь к нам , чтобы запросить его.

Следующие шаги

Следуйте краткому руководству, чтобы приступить к использованию содержимого ИИ Azure Сейф ty для обнаружения рисков ввода пользователей.