Konfigurieren von Inhaltsfiltern mit Azure OpenAI Service

Artikel
04/16/2024

Hinweis

Die Kundschaft kann die Inhaltsfilter ändern und die Schweregrad-Schwellenwerte (niedrig, mittel, hoch) konfigurieren. Die Genehmigung ist erforderlich, um die Inhaltsfilter teilweise oder vollständig zu deaktivieren. Verwaltete Kunden können nur eine vollständige Inhaltsfilterung über folgendes Formular beantragen: Azure OpenAI Limited Access Review: Geänderte Content-Filter.

Das in Azure OpenAI Service integrierte Inhaltsfilterungssystem wird neben den Kernmodellen ausgeführt und verwendet einen Satz Klassifizierungsmodelle mit mehreren Klassen, um vier Kategorien schädlicher Inhalte (Gewalt, Hass, Sexuelles und Selbstverletzung) mit jeweils vier Schweregraden (sicher, niedrig, mittel und hoch) und optionalen binären Klassifizierern zur Erkennung von Jailbreak-Risiken, vorhandenem Text und Code in öffentlichen Repositorys zu erkennen. Die Standardkonfiguration für die Inhaltsfilterung ist so festgelegt, dass für alle vier Kategorien von Inhaltsschäden sowohl für Eingabeaufforderungen als auch für Vervollständigungen der Mittlere Schweregrad gefiltert wird. Dies bedeutet, dass Inhalte, die mit dem Schweregrad mittel oder hoch erkannt werden, gefiltert werden, während mit dem Schweregrad „niedrig“ erkannte Inhalte nicht ausgefiltert werden. Weitere Informationen zu den Inhaltskategorien, Schweregraden und dem Verhalten des Inhaltsfiltersystems finden Sie hier. Jailbreak-Risikoerkennung und geschützte Text- und Codemodelle sind standardmäßig optional und deaktiviert. Für Jailbreak- und geschützte Materialtext- und -codemodelle ermöglicht das Konfigurierbarkeitsfeature allen Kunden, die Modelle ein- und auszuschalten. Die Modelle sind standardmäßig deaktiviert und können pro Szenario aktiviert werden. Beachten Sie, dass einige Modelle für bestimmte Szenarien aktiviert sein müssen, um die Abdeckung im Rahmen der Verpflichtung zum Urheberrecht des Kunden beizubehalten.

Inhaltsfilter können auf Ressourcenebene konfiguriert werden. Sobald eine neue Konfiguration erstellt wurde, kann sie einer oder mehreren Bereitstellungen zugeordnet werden. Weitere Informationen zur Modellimplementierung finden Sie im Leitfaden zur Ressourcenbereitstellung.

Die Konfigurierbarkeitsfunktion ist in der Vorschau verfügbar und ermöglicht es Kunden, die Einstellungen separat für Eingabeaufforderungen und Vervollständigungen anzupassen, um Inhalte wie in der folgenden Tabelle beschrieben für jede Inhaltskategorie mit unterschiedlichen Schweregraden zu filtern. Inhalte, die mit dem Schweregrad „sicher“ erkannt werden, werden in Anmerkungen gekennzeichnet, unterliegen jedoch keiner Filterung und sind nicht konfigurierbar.

Gefilterter Schweregrad	Konfigurierbar für Eingabeaufforderungen	Konfigurierbar für Vervollständigungen	Beschreibungen
Niedrig, mittel, hoch	Ja	Ja	Strengste Filterkonfiguration. Mit den Schweregraden „Niedrig“, „Mittel“ und „Hoch“ erkannte Inhalte werden gefiltert.
Mittel, Hoch	Ja	Ja	Standardeinstellung. Mit dem Schweregrad „Niedrig“ erkannte Inhalte werden nicht gefiltert, Inhalte mit mittlerem und hohem Schweregrad werden gefiltert.
Hoch	Ja	Ja	Mit den Schweregraden „Niedrig“ und „Mittel“ erkannte Inhalte werden nicht gefiltert. Nur Inhalte mit hohem Schweregrad werden gefiltert.
Keine Filter	falls genehmigt^*	falls genehmigt^*	Unabhängig vom erkannten Schweregrad wird kein Inhalt gefiltert. Genehmigung erforderlich^*.

^* Nur genehmigte Kunden verfügen über eine vollständige Inhaltsfiltersteuerung und können die Inhaltsfilter teilweise oder vollständig deaktivieren. Verwaltete Kunden können eine vollständige Inhaltsfilterung nur über folgendes Formular beantragen: Azure OpenAI Limited Access Review: Geänderte Content-Filter und Missbrauchsüberwachung (microsoft.com)

Kunden sind dafür verantwortlich, sicherzustellen, dass Anwendungen, die Azure OpenAI integrieren, den Verhaltenskodex einhalten.

Filterkategorie	Standardeinstellung	Wird auf Eingabeaufforderung oder Abschluss angewendet?	Beschreibung
Jailbreak-Risikoerkennung	Aus	Eingabeaufforderung	Kann aktiviert werden, um Benutzeraufforderungen zu filtern oder zu kommentieren, die möglicherweise ein Jailbreak-Risiko darstellen. Weitere Informationen zum Verwenden von Anmerkungen finden Sie unter Azure OpenAI Service-Inhaltsfilterung
Geschütztes Material - Code	aus	Completion	Kann aktiviert werden, um die Beispielzitate und Lizenzinformationen in Anmerkungen für Codeausschnitte zu erhalten, die mit öffentlichen Codequellen übereinstimmen. Weitere Informationen zum Verwenden von Anmerkungen finden Sie im Leitfaden zur Inhaltsfilterung
Geschütztes Material - Text	aus	Completion	Kann aktiviert werden, um bekannte Textinhalte zu identifizieren und zu blockieren, die in der Modellausgabe angezeigt werden (z. B. Songtexte, Rezepte und ausgewählte Webinhalte).

Konfigurieren von Inhaltsfiltern über Azure OpenAI Studio (Vorschau)

Die folgenden Schritte zeigen, wie Sie eine benutzerdefinierte Inhaltsfilterkonfiguration für Ihre Ressource einrichten.

Navigieren Sie zu Azure OpenAI Studio und dann zur Registerkarte Inhaltsfilter (im linken unteren Navigationsbereich, wie durch das rote Feld unten gekennzeichnet).
Erstellen einer neuen benutzerdefinierten Inhaltsfilterkonfiguration.

Dies führt zur folgenden Konfigurationsansicht, in der Sie einen Namen für die benutzerdefinierte Inhaltsfilterkonfiguration auswählen können.
Dies ist die Ansicht der Standardkonfiguration für die Inhaltsfilterung, bei der Inhalte aller Kategorien mit mittlerem und hohem Schweregrad gefiltert werden. Sie können den Schweregrad der Inhaltsfilterung für Benutzereingabeaufforderungen und Modellvervollständigungen separat ändern (die Konfiguration der Eingabeaufforderungen befindet sich in der linken Spalte, und die Konfiguration für Vervollständigungen in der rechten Spalte, wie die blauen Kästen unten zeigen). Dies gilt für jede der vier Inhaltskategorien (die Inhaltskategorien sind auf der linken Seite des Bildschirms aufgeführt, wie der grüne Kasten unten zeigt). Es gibt drei Schweregrade für jede Kategorie, die konfigurierbar sind: Niedrig, mittel und hoch. Sie können den Schieberegler verwenden, um den Schweregradschwellenwert festzulegen.
Wenn Sie feststellen, dass für Ihr Anwendungs- oder Nutzungsszenario eine strengere Filterung für einige oder alle Inhaltskategorien erforderlich ist, können Sie die Einstellungen für Eingabeaufforderungen und Vervollständigungen separat so konfigurieren, dass sie mit mehr Schweregraden als die Standardeinstellung filtern. Ein Beispiel ist in der folgenden Abbildung dargestellt, in der die Filterstufe für Benutzeraufforderungen auf die strengste Konfiguration für Hass und Sexuelles festgelegt ist, wobei Inhalte mit niedrigem Schweregrad gefiltert werden, zusammen mit Inhalten, die als mittlerer und hoher Schweregrad klassifiziert sind (im roten Kasten unten dargestellt). Im Beispiel werden die Filterstufen für Modellvervollständigen auf die strengste Konfiguration für alle Inhaltskategorien festgelegt (blauer Kasten unten). Mit dieser geänderten Filterkonfiguration werden Inhalte mit niedrigem, mittlerem und hohem Schweregrad in Benutzeraufforderungen nach Hass- und sexuellen Kategorien gefiltert. Inhalte mit mittlerem und hohem Schweregrad werden in Benutzeraufforderungen nach den Kategorien Selbstverletzung und Gewalt gefiltert. Inhalte mit niedrigem, mittlerem und hohem Schweregrad werden nach allen Inhaltskategorien in modellbezogenen Vervollständigungen gefiltert.
Wenn Ihr Anwendungsfall für geänderte Inhaltsfilter wie oben beschrieben genehmigt wurde, erhalten Sie die vollständige Kontrolle über die Inhaltsfilterkonfiguration und können die Filterung teilweise oder vollständig deaktivieren. In der Abbildung unten ist die Filterung für Gewalt (grüner Kasten unten) deaktiviert, während die Standardkonfigurationen für andere Kategorien beibehalten werden. Obwohl die Filterfunktion für Gewalt deaktiviert wurde, werden Inhalte weiterhin kommentiert. Um alle Filter und Anmerkungen zu deaktivieren, schalten Sie Filter und Anmerkungen aus (roter Kasten unten).

Sie können mehrere Inhaltsfilterkonfigurationen gemäß Ihren Anforderungen erstellen.
Um die optionalen Modelle zu aktivieren, können Sie alle Kontrollkästchen auf der linken Seite auswählen. Wenn jedes der optionalen Modelle aktiviert ist, können Sie angeben, ob das Modell Anmerkungen oder Filter enthalten soll.
Wenn Sie die Option Anmerkungen wählen, wird das entsprechende Modell ausgeführt und die Anmerkungen über die API-Antwort zurückgegeben, der Inhalt wird jedoch nicht gefiltert. Zusätzlich zu Anmerkungen können Sie auch den Inhalt filtern, indem Sie die Umschaltfläche Filter aktivieren.
Sie können mehrere Inhaltsfilterkonfigurationen gemäß Ihren Anforderungen erstellen.
Um eine benutzerdefinierte Inhaltsfilterkonfiguration zu nutzen, weisen Sie einer oder mehreren Bereitstellungen in Ihrer Ressource eine Konfiguration zu. Wechseln Sie dazu zur Registerkarte Bereitstellungen und wählen Sie Bereitstellung bearbeiten aus (oben auf dem Bildschirm in einem roten Kasten unten dargestellt).
Wechseln Sie zu erweiterten Optionen (im blauen Kasten unten dargestellt), wählen Sie die für diese Bereitstellung geeignete Inhaltsfilterkonfiguration aus der Dropdownliste Inhaltsfilter aus (unten im Dialogfeld im roten Kasten unten dargestellt).
Wählen Sie Speichern und schließen aus, um die ausgewählte Konfiguration auf die Bereitstellung anzuwenden.
Sie können bei Bedarf eine Inhaltsfilterkonfiguration auch bearbeiten und löschen. Navigieren Sie dazu zur Registerkarte Inhaltsfilter und wählen Sie die gewünschte Aktion aus (Optionen, die oben auf dem Bildschirm im roten Kasten unten dargestellt sind). Sie können jeweils nur eine Filterkonfiguration bearbeiten/löschen.

Hinweis

Bevor Sie eine Inhaltsfilterkonfiguration löschen können, müssen Sie die Zuweisung für jede Bereitstellung auf der Registerkarte Bereitstellungen aufheben.

Bewährte Methoden

Wir empfehlen, Ihre Entscheidungen zur Konfiguration der Inhaltsfilterung durch einen iterativen Identifizierungs- (z. B. Red-Team-Tests, Stresstests und Analysen) und Messprozess zu unterstützen, um für ein bestimmtes Modell, eine bestimmte Anwendung und ein bestimmtes Einsatzszenario relevante potenzielle Schäden zu ermitteln. Wiederholen Sie nach der Implementierung von Risikominderungen wie Inhaltsfilterung die Messung, um ihre Effektivität zu testen. Empfehlungen und bewährte Methoden für Verantwortungsvolle KI für Azure OpenAI, die auf dem Microsoft Responsible AI Standard basiert, finden Sie in der Übersicht über verantwortungsvolle KI für Azure OpenAI.

Nächste Schritte

Erfahren Sie mehr über Verantwortungsvolle KI-Methoden für Azure OpenAI: Übersicht über verantwortungsvolle KI-Methoden für Azure OpenAI-Modelle.
Erfahren Sie mehr über Inhaltsfilterkategorien und Schweregrade mit dem Azure OpenAI Service.
Erfahren Sie mehr über Rote Teams in unserem Artikel: Einführung in das Red Teaming großer Sprachmodelle (LLMs).

Share via

Konfigurieren von Inhaltsfiltern mit Azure OpenAI Service

Konfigurieren von Inhaltsfiltern über Azure OpenAI Studio (Vorschau)

Bewährte Methoden

Nächste Schritte

Zusätzliche Ressourcen