Come configurare i filtri di contenuto con il servizio Azure OpenAI

Articolo
04/19/2024

Nota

Tutti i clienti hanno la possibilità di modificare i filtri di contenuto e configurare le soglie di gravità (bassa, media, alta). L'approvazione è necessaria per disattivare parzialmente o completamente i filtri di contenuto. I clienti gestiti possono essere applicati solo per il controllo completo del filtro del contenuto tramite questo modulo: Verifica accesso limitato di Azure OpenAI: Filtri contenuto modificati.

Il sistema di filtro dei contenuti integrato nel servizio Azure OpenAI viene eseguito insieme ai modelli di base e usa un insieme di modelli di classificazione multiclasse per rilevare quattro categorie di contenuto dannoso (violenza, odio, sesso e autolesionismo) rispettivamente a quattro livelli di gravità (sicuri, bassi, medi e alti) e classificatori binari facoltativi per rilevare il rischio di jailbreak, il testo esistente e il codice nei repository pubblici. La configurazione di filtro del contenuto predefinita è impostata per filtrare in base alla soglia di gravità media per tutte e quattro le categorie di contenuto dannose per richieste e completamenti. Ciò significa che il contenuto rilevato a livello di gravità medio o alto viene filtrato, mentre il contenuto rilevato a livello di gravità basso o sicuro non viene filtrato in base ai filtri di contenuto. Altre informazioni sulle categorie di contenuto, i livelli di gravità e il comportamento del sistema di filtro del contenuto sono disponibili qui. Per impostazione predefinita, il rilevamento dei rischi jailbreak e i modelli di testo e codice protetti sono facoltativi e disattivati. Per i modelli di testo e codice protetti, la funzionalità di configurabilità consente a tutti i clienti di attivare e disattivare i modelli. I modelli sono disattivati per impostazione predefinita e possono essere attivati in base allo scenario. Per alcuni scenari è necessario che alcuni modelli mantengano la copertura in base all'impegno sul copyright del cliente.

I filtri contenuto possono essere configurati a livello di risorsa. Dopo aver creato una nuova configurazione, può essere associata a una o più distribuzioni. Per altre informazioni sulla distribuzione del modello, vedere la guida alla distribuzione delle risorse.

La funzionalità di configurabilità è disponibile in anteprima e consente ai clienti di modificare le impostazioni, separatamente per richieste e completamenti, per filtrare il contenuto per ogni categoria di contenuto a livelli di gravità diversi, come descritto nella tabella seguente. Il contenuto rilevato a livello di gravità "safe" è etichettato nelle annotazioni, ma non è soggetto a filtri e non è configurabile.

Gravità filtrata	Configurabile per le richieste	Configurabile per i completamenti	Descrizione
Basso, medio, elevato	Sì	Sì	Configurazione di filtro più rigorosa. Il contenuto rilevato a livelli di gravità bassi, medi e alti viene filtrato.
Medio, alto	Sì	Sì	impostazione predefinita. Il contenuto rilevato con livello di gravità basso non viene filtrato, il contenuto a livello medio e alto viene filtrato.
Alto	Sì	Sì	Il contenuto rilevato a livelli di gravità basso e medio non viene filtrato. Viene filtrato solo il contenuto a livello di gravità elevato.
Nessun filtro	Se approvato^*	Se approvato^*	Nessun contenuto viene filtrato indipendentemente dal livello di gravità rilevato. Richiede l'approvazione^*.

^* Solo i clienti approvati hanno un controllo di filtro completo del contenuto e possono disattivare parzialmente o completamente i filtri di contenuto. I clienti gestiti possono essere applicati solo per il controllo completo del filtro del contenuto tramite questo modulo: Verifica accesso limitato di Azure OpenAI: Filtri contenuto modificati

I clienti sono responsabili di garantire che le applicazioni che integrano Azure OpenAI siano conformi al Codice di comportamento.

Categoria filtro	Impostazione predefinita	Applicato alla richiesta o al completamento?	Descrizione
Rilevamento dei rischi jailbreak	Disattivato	Prompt	Può essere attivato per filtrare o annotare le richieste degli utenti che potrebbero presentare un rischio jailbreak. Per altre informazioni sull'utilizzo delle annotazioni, vedere Filtro del contenuto del servizio OpenAI di Azure
Materiale protetto - codice	spento	Completion	Può essere attivato per ottenere le informazioni di citazione e licenza di esempio nelle annotazioni per frammenti di codice che corrispondono a qualsiasi origine di codice pubblica. Per altre informazioni sull'utilizzo delle annotazioni, vedere la guida ai concetti relativi ai filtri del contenuto
Materiale protetto - testo	spento	Completion	Può essere attivato per identificare e bloccare la visualizzazione del contenuto di testo noto nell'output del modello (ad esempio, testi delle canzoni, ricette e contenuto Web selezionato).

Configurazione dei filtri di contenuto tramite Azure OpenAI Studio (anteprima)

I passaggi seguenti illustrano come configurare una configurazione di filtro del contenuto personalizzata per la risorsa.

Passare ad Azure OpenAI Studio e passare alla scheda Filtri contenuto (nel riquadro di spostamento in basso a sinistra, come indicato dalla casella rossa seguente).
Creare una nuova configurazione di filtro del contenuto personalizzata.

In questo modo viene visualizzata la visualizzazione di configurazione seguente, in cui è possibile scegliere un nome per la configurazione del filtro del contenuto personalizzato.
Si tratta della visualizzazione della configurazione predefinita del filtro del contenuto, in cui il contenuto viene filtrato a livelli di gravità medio e alto per tutte le categorie. È possibile modificare il livello di gravità del filtro del contenuto per i prompt degli utenti e i completamenti del modello separatamente (la configurazione per le richieste si trova nella colonna sinistra e la configurazione per i completamenti si trova nella colonna destra, come indicato con le caselle blu seguenti) per ognuna delle quattro categorie di contenuto (le categorie di contenuto sono elencate sul lato sinistro dello schermo, come designato con la casella verde sotto). Esistono tre livelli di gravità per ogni categoria configurabili: bassa, media e alta. È possibile usare il dispositivo di scorrimento per impostare la soglia di gravità.
Se si determina che l'applicazione o lo scenario di utilizzo richiede un filtro più rigoroso per alcune o tutte le categorie di contenuto, è possibile configurare le impostazioni, separatamente per i prompt e i completamenti, per filtrare a livelli di gravità maggiori rispetto all'impostazione predefinita. Un esempio è illustrato nell'immagine seguente, in cui il livello di filtro per le richieste degli utenti è impostato sulla configurazione più rigida per odio e sessuale, con contenuto con gravità bassa filtrato insieme al contenuto classificato come medio e alto livello di gravità (descritto nella casella rossa seguente). Nell'esempio i livelli di filtro per i completamenti del modello vengono impostati in base alla configurazione più rigorosa per tutte le categorie di contenuto (casella blu di seguito). Con questa configurazione di filtro modificata sul posto, il contenuto basso, medio e di gravità elevata verrà filtrato per le categorie di odio e sessuale nelle richieste degli utenti; il contenuto medio e con gravità elevata verrà filtrato per le categorie autolesionismo e violenza nelle richieste degli utenti; e il contenuto con gravità bassa, media e alta verranno filtrati per tutte le categorie di contenuto nei completamenti del modello.
Se il caso d'uso è stato approvato per i filtri di contenuto modificati come descritto in precedenza, si riceve il controllo completo sulle configurazioni di filtro del contenuto e può scegliere di disattivare parzialmente o completamente il filtro. Nell'immagine seguente, il filtro viene disattivato per la violenza (casella verde sotto), mentre le configurazioni predefinite vengono mantenute per altre categorie. Anche se questa opzione ha disabilitato la funzionalità di filtro per la violenza, il contenuto verrà comunque annotato. Per disattivare tutti i filtri e le annotazioni, disattivare Filtri e annotazioni (casella rossa di seguito).

È possibile creare più configurazioni di filtro del contenuto in base alle esigenze.
Per attivare i modelli facoltativi, è possibile selezionare una delle caselle di controllo sul lato sinistro. Quando ognuno dei modelli facoltativi è attivato, è possibile indicare se il modello deve annotare o filtrare.
Selezionando Annotazioni viene eseguito il rispettivo modello e vengono restituite annotazioni tramite risposta API, ma non verrà filtrato il contenuto. Oltre alle annotazioni, è anche possibile scegliere di filtrare il contenuto attivando l'interruttore Filtra.
È possibile creare più configurazioni di filtro del contenuto in base alle esigenze.
Successivamente, per rendere operativa una configurazione di filtro del contenuto personalizzata, assegnare una configurazione a una o più distribuzioni nella risorsa. A tale scopo, passare alla scheda Distribuzioni e selezionare Modifica distribuzione (evidenziata nella parte superiore della schermata in una casella rossa sotto).
Passare alle opzioni avanzate (descritte nella casella blu seguente) selezionare la configurazione del filtro contenuto adatta per tale distribuzione dall'elenco a discesa Filtro contenuto (evidenziata nella parte inferiore della finestra di dialogo nella casella rossa sotto).
Selezionare Salva e chiudi per applicare la configurazione selezionata alla distribuzione.
Se necessario, è anche possibile modificare ed eliminare una configurazione del filtro contenuto. A tale scopo, passare alla scheda Filtri contenuto e selezionare l'azione desiderata (opzioni descritte nella parte superiore della schermata nella casella rossa sotto). È possibile modificare/eliminare una sola configurazione di filtro alla volta.

Nota

Prima di eliminare una configurazione di filtro del contenuto, sarà necessario annullare l'assegnazione da qualsiasi distribuzione nella scheda Distribuzioni.

Procedure consigliate

È consigliabile informare le decisioni di configurazione del filtro del contenuto tramite un'identificazione iterativa (ad esempio, test red team, test di stress e analisi) e processo di misurazione per risolvere i potenziali danni rilevanti per uno scenario specifico di modello, applicazione e distribuzione. Dopo aver implementato mitigazioni come il filtro del contenuto, ripetere la misurazione per testare l'efficacia. Consigli e le procedure consigliate per l'intelligenza artificiale responsabile per Azure OpenAI, in base a Microsoft Responsible AI Standard è disponibile in Panoramica dell'intelligenza artificiale responsabile per Azure OpenAI.

Passaggi successivi

Altre informazioni sulle procedure di intelligenza artificiale responsabile per Azure OpenAI: Panoramica delle procedure di intelligenza artificiale responsabile per i modelli OpenAI di Azure.
Altre informazioni sui filtri dei contenuti e sui livelli di gravità con il servizio OpenAI di Azure.
Per altre informazioni sul red teaming, vedere l'articolo Introduzione al red teaming di modelli linguistici di grandi dimensioni.

Share via

Come configurare i filtri di contenuto con il servizio Azure OpenAI

Configurazione dei filtri di contenuto tramite Azure OpenAI Studio (anteprima)

Procedure consigliate

Passaggi successivi

Risorse aggiuntive