Freigeben über


Modellüberwachung für generative KI-Anwendungen (Vorschau)

Die Überwachung von Modellen in der Produktion ist ein wesentlicher Bestandteil des KI-Lebenszyklus. Änderungen im Daten- und Verbraucherverhalten können Ihre generative KI-Anwendung im Laufe der Zeit beeinflussen, was zu veralteten Systemen führt, die sich negativ auf die Geschäftsergebnisse auswirken und Organisationen Compliance-, wirtschaftlichen und Reputationsrisiken aussetzen.

Wichtig

Modellüberwachung für generative KI-Anwendungen befindet sich in der öffentlichen Vorschau. Diese Vorschauversionen werden ohne Servicelevel-Vereinbarung bereitgestellt und werden nicht für Produktionsworkloads empfohlen. Manche Features werden möglicherweise nicht unterstützt oder sind nur eingeschränkt verwendbar. Weitere Informationen finden Sie unter Zusätzliche Nutzungsbestimmungen für Microsoft Azure-Vorschauen.

Die Überwachung des Azure Machine Learning-Modells für generative KI-Anwendungen erleichtert Ihnen die Überwachung Ihrer LLM-Anwendungen in der Produktion auf Sicherheit und Qualität in regelmäßigen Abständen, um maximale geschäftliche Auswirkungen zu gewährleisten. Die Überwachung trägt letztendlich dazu bei, die Qualität und Sicherheit Ihrer generativen KI-Anwendungen zu erhalten. Zu den Funktionen und Integrationen gehören:

  • Das Sammeln von Produktionsdaten mithilfe des Modelldatensammlers
  • Metriken für verantwortungsvolle KI-Auswertungen wie Fundiertheit, Kohärenz, Geläufigkeit, Relevanz und Ähnlichkeit, die mit Metriken der Azure Machine Learning-Promptflowauswertung interoperabel sind
  • Die Fähigkeit, Warnungen für Verstöße basierend auf Organisationszielen zu konfigurieren und die Überwachung auf wiederkehrender Basis auszuführen
  • Nutzen Sie Ergebnisse in einem umfangreichen Dashboard innerhalb eines Arbeitsbereichs im Azure Machine Learning Studio.
  • Integration in Azure Machine Learning Prompt Flow Evaluatiosmetriken, Analyse gesammelter Produktionsdaten, um zeitnahe Warnungen und eine Visualisierung der Metriken im Zeitverlauf darzustellen ​

Grundlegende Konzepte der Modellüberwachung finden Sie unter Modellüberwachung mit Azure Machine Learning (Vorschauversion). In diesem Artikel erfahren Sie, wie Sie eine generative KI-Anwendung überwachen, die von einem verwalteten Onlineendpunkt unterstützt wird. Auszuführende Schritte:

Auswertungsmetriken

Metriken werden durch die folgenden modernen GPT-Sprachmodelle generiert, die mit spezifischen Auswertungsanweisungen (Promptvorlagen) konfiguriert sind, die als Auswertungsmodelle für Sequenzaufgaben fungieren. Diese Technik hat im Vergleich zu standardmäßigen generativen KI-Auswertungsmetriken starke empirische Ergebnisse und eine hohe Korrelation mit dem menschlichen Urteilsvermögen gezeigt. Weitere Informationen zur Promptflowauswertung finden Sie unter Übermitteln von Massentests und Auswerten eines Flows (Vorschau) für weitere Informationen zur Promptflowauswertung.

Diese GPT-Modelle werden unterstützt und als Ihre Azure OpenAI-Ressource konfiguriert:

  • GPT-3.5-Turbo
  • GPT-4
  • GPT-4-32k

Die folgenden Metriken werden unterstützt. Ausführlichere Informationen zu den einzelnen Metriken finden Sie unter Beschreibungen und Anwendungsfälle zur Überwachung von Auswertungsmetriken

  • Fundiertheit: wertet aus, wie gut die vom Modell generierten Antworten mit den Informationen aus der Eingabequelle zusammenpassen.
  • Relevanz: misst das Ausmaß, in dem die vom Modell generierten Antworten relevant sind und in direktem Zusammenhang mit den vorgegebenen Fragen stehen.
  • Kohärenz: bewertet, wie gut das Sprachmodell eine Ausgabe erzeugen kann, die sich flüssig und natürlich liest und der menschlichen Sprache ähnelt.
  • Geläufigkeit: bewertet die Sprachkompetenz der vorhergesagten Antwort einer generativen KI. Sie bewertet, wie gut der generierte Text grammatikalische Regeln, syntaktische Strukturen und die angemessene Verwendung des Vokabulars einhält, was zu sprachlich korrekten und natürlich klingenden Antworten führt.
  • Ähnlichkeit: wertet die Ähnlichkeit zwischen einem Basiswahrheitssatz (oder Dokument) und dem Vorhersagesatz, der von einem KI-Modell generiert wird aus.

Anforderungen an die Metrikkonfiguration

Die folgenden Eingaben (Datenspaltennamen) sind erforderlich, um die Sicherheit und Qualität generierter Inhalte zu messen:

  • Aufforderungstext – die ursprüngliche Aufforderung (auch als „Eingaben“ oder „Frage“ bezeichnet)
  • Vervollständigungstext – die endgültige Vervollständigung des zurückgegebenen API-Aufrufs (auch als „Ausgaben“ oder „Antwort“ bezeichnet)
  • Kontexttext – Alle Kontextdaten, die an den API-Aufruf gesendet werden, zusammen mit der ursprünglichen Aufforderung. Wenn Sie beispielsweise hoffen, nur Suchergebnisse von bestimmten zertifizierten Informationsquellen/Websites zu erhalten, können Sie diese in den Auswertungsschritten definieren. Dies ist ein optionaler Schritt, der über den Prompt Flow konfiguriert werden kann.
  • Grundwahrheitstext – der benutzerdefinierte Text als „Quelle der Wahrheit“ (optional)

Welche Parameter in Ihrer Datenressource konfiguriert sind, bestimmt, welche Metriken Sie gemäß dieser Tabelle erstellen können:

Metrik Prompt Completion Kontext Grundwahrheit
Kohärenz Erforderlich Erforderlich - -
Geläufigkeit Erforderlich Erforderlich - -
Quellenübereinstimmung Erforderlich Erforderlich Erforderlich -
Relevance Erforderlich Erforderlich Erforderlich -
Ähnlichkeit Erforderlich Erforderlich - Erforderlich

Voraussetzungen

  1. Azure OpenAI-Ressource: Sie müssen eine Azure OpenAI-Ressource haben, die mit einem ausreichenden Kontingent erstellt wurde. Diese Ressource wird als Auswertungsendpunkt verwendet.
  2. Verwaltete Identität: Erstellen Sie eine vom Benutzer zugewiesene verwaltete Identität (User Assigned Managed Identity, UAI), und fügen Sie sie an Ihren Arbeitsbereich an, indem Sie die Anleitung unter Anfügen von benutzerseitig zugewiesener verwalteter Identität mithilfe der CLI v2mit ausreichendem Rollenzugriff verwenden, wie im nächsten Schritt definiert.
  3. Rollenzugriff Um eine Rolle mit den erforderlichen Berechtigungen zuzuweisen, müssen Sie über die Besitzer oder Microsoft.Authorization/roleAssignments/write-Berechtigung für Ihre Ressource verfügen. Das Aktualisieren von Verbindungen und Berechtigungen kann einige Minuten dauern, um wirksam zu werden. Diese zusätzlichen Rollen müssen Ihrer UAI zugewiesen werden:
    • Ressource: Arbeitsbereich
    • Rolle: Azure Machine Learning-Rolle „Wissenschaftliche Fachkraft für Daten“
  4. Arbeitsbereichsverbindung:Gemäß dieser Anleitung verwenden Sie eine verwaltete Identität, die die Anmeldeinformationen für den Azure OpenAI-Endpunkt darstellt, der zum Berechnen der Überwachungsmetriken verwendet wird. Löschen Sie die Verbindung NICHT, sobald sie im Flow verwendet wird.
    • API-Version: 15.03.2023 Vorschauversion
  5. Bereitstellung von Promptflows: Erstellen Sie eine Promptflow-Runtime gemäß dieser Anleitung, führen Sie Ihren Flow aus, und konfigurieren Sie Ihre Bereitstellung mithilfe dieses Artikels als Leitfaden
    • Floweingaben und -ausgaben: Sie müssen Ihre Flowausgaben entsprechend benennen und sich diese Spaltennamen beim Erstellen Ihres Monitors merken. In diesem Artikel werden die folgenden Begriffe verwendet:
      • Eingaben (erforderlich): „Aufforderung“
      • Outputs (erforderlich): "Abschluss"
        • Ausgaben (optional): „Kontext“ | „Grundwahrheit“
    • Datenerfassung: in der "Bereitstellung" (Schritt #2 des Assistenten für die Bereitstellung von Prompt Flows) muss der Schalter "Sammlung von Inferenzdaten" mit Modelldatenkollektor aktiviert werden
    • Ausgaben: Bestätigen Sie in den Ausgaben (Schritt 3 des Assistenten für die Bereitstellung von Prompt Flows), dass Sie die oben aufgeführten erforderlichen Ausgaben (z. B. Abschluss | Kontext | ground_truth) ausgewählt haben, die Ihren metrischen Konfigurationsanforderungen entsprechen

Hinweis

Wenn sich Ihre Compute-Instanz hinter einem VNet befindet, sehen Sie unter Netzwerkisolierung im Prompt Flow nach.

Erstellen Ihres Monitors

Erstellen Sie Ihren Monitor in der Monitorübersichtsseite Screenshot showing how to create a monitor for your application.

Grundlegende Überwachungseinstellungen konfigurieren

Ändern Sie im Assistenten zum Erstellen der Überwachung den Modelltasktyp in Prompt und Vervollständigung, wie im Screenshot unter (A) gezeigt. Screenshot showing how to configure basic monitoring settings for generative AI.

Konfigurieren der Datenressource

Wenn Sie den Modelldatencollector verwendet haben, wählen Sie Ihre beiden Datenressourcen (Eingaben und Ausgaben) aus. Screenshot showing how to configure your data asset for generative AI.

Auswählen von Überwachungssignalen

Screenshot showing monitoring signal configuration options on the monitoring settings dialog.

  1. Konfigurieren der Arbeitsbereichsverbindung (A) im Screenshot.
    1. Sie müssen Ihre Arbeitsbereichsverbindung ordnungsgemäß konfigurieren, da Ihnen sonst Folgendes angezeigt wird: Screenshot showing an unconfigured monitoring signal.
  2. Geben Sie den Namen Ihrer Azure OpenAI-Evaluator-Bereitstellung (B) ein.
  3. (Optional) Verknüpfen Ihrer Produktionsdateneingaben und -ausgaben : Die Eingaben und Ausgaben Ihrer Produktionsmodelle werden automatisch vom Überwachungsdienst (C) verknüpft. Sie können dies bei Bedarf anpassen, aber es ist keine Aktion erforderlich. Standardmäßig ist die Joinspalte correlationid.
  4. (Optional) Konfigurieren von Metrikschwellenwerten: Eine akzeptable Bewertung pro Instanz wird auf 3/5 festgelegt. Sie können die zulässige Gesamterfolgsquote in % im Bereich [1,99] % anpassen.
  • Geben Sie manuell Spaltennamen aus Ihrem Promptflow (E) ein. Standardnamen sind („Prompt“ | „Vervollständigung“ | „Kontext“ | „ground_truth“). Sie können sie jedoch entsprechend Ihrem Datenobjekt konfigurieren.

  • (optional) Festlegen der Samplingrate (F)

  • Nach der Konfiguration zeigt Ihr Signal keine Warnung mehr an. Screenshot showing monitoring signal configurations without a warning.

Konfigurieren von Benachrichtigungen

Es ist keine Aktion erforderlich. Sie können bei Bedarf weitere Empfänger konfigurieren. Screenshot showing monitoring notification configurations.

Bestätigen der Konfiguration des Überwachungssignals

Nach einer erfolgreichen Konfiguration sollte Ihr Monitor folgendermaßen aussehen: Screenshot showing a configured monitoring signal.

Status der Überwachung bestätigen

Nach einer erfolgreichen Konfiguration, sollte Ihr Auftrag für die Überwachungspipeline Folgendes anzeigen: Screenshot showing a successfully configured monitoring signal.

Nutzen von Ergebnissen

Monitorübersichtsseite

Ihre Monitorübersicht bietet einen Überblick über Ihre Signalleistung. Sie können Ihre Signaldetailseite eingeben, um weitere Informationen zu erhalten. Screenshot showing monitor overview.

Seite zu Signaldetails

Auf der Seite „Signaldetails“ können Sie Metriken im Zeitverlauf (A) anzeigen und Histogramme der Verteilung (B) anzeigen.

Screenshot showing a signal details page.

Alarme auflösen

Es ist nur möglich, Signalschwellenwerte anzupassen. Die akzeptable Bewertung ist auf 3/5 festgelegt, und es ist nur möglich, das Feld „zulässige Gesamterfolgsquote in %“ anzupassen. Screenshot adjusting signal thresholds.

Nächste Schritte