Machine Learning-Vorgänge (MLOps) v2

Artikel
09/13/2023

In diesem Artikel werden drei Azure-Architekturen für maschinelle Lernvorgänge beschrieben. Sie verfügen über End-to-End-Continuous Integration (CI), Continuous Delivery (CD) und Retrainingspipelines. Die Architekturen sind für diese KI-Anwendungen:

Klassisches maschinelles Lernen
Maschinelles Sehen (CV)
Verarbeitung natürlicher Sprache (Natural Language Processing, NLP)

Die Architekturen sind das Produkt des MLOps v2-Projekts. Sie integrieren die bewährten Methoden, die die Lösungsarchitekten im Prozess der Erstellung mehrerer maschineller Lernlösungen entdeckt haben. Das Ergebnis ist verfügbar, wiederholbar und wartbares Muster wie hier beschrieben.

Alle Architekturen verwenden den Azure Machine Learning-Dienst.

Eine Implementierung mit Beispielbereitstellungsvorlagen für MLOps v2 finden Sie unter Azure MLOps (v2) Solution Accelerator auf GitHub.

Mögliche Anwendungsfälle

Klassisches maschinelles Lernen: Zeitreihenprognose, Regression und Klassifizierung in tabellarischen strukturierten Daten sind die häufigsten Anwendungsfälle in dieser Kategorie. Beispiele:
- Binäre und Multibeschriftungsklassifizierung
- Linear, Polynomial, Ridge, Lasso, Quantile und Bayesian-Regression
- ARIMA, autoregressive (AR), SARIMA, VAR, SES, LSTM
CV: Das hier vorgestellte MLOps-Framework konzentriert sich hauptsächlich auf die CV-Anwendungsfälle der Segmentierung und Bildklassifizierung.
NLP: Dieses MLOps-Framework kann jede dieser Anwendungsfälle und andere nicht aufgeführte implementieren:
- Erkennung benannter Entitäten
- Textklassifizierung
- Textgenerierung
- Stimmungsanalyse
- Sprachübersetzung
- Fragen und Antworten
- Zusammenfassung
- Satzerkennung
- Spracherkennung
- Satzteilmarkierung

Simulationen, tiefen Verstärkungslernen und andere Formen von KI werden von diesem Artikel nicht behandelt.

Aufbau

Das MLOps v2-Architekturmuster besteht aus vier Hauptmodulelementen, die diese Phasen des MLOps-Lebenszyklus darstellen:

Datenbestand
Verwaltung und Einrichtung
Modellentwicklung (innere Schleife)
Modellimplementierung (äußere Schleife)

Diese Elemente, die Beziehungen zwischen ihnen und den in der Regel zugeordneten Personas sind für alle MLOps v2-Szenarioarchitekturen üblich. Je nach Szenario können Variationen in den Details der Einzelnen vorliegen.

Die Basisarchitektur für MLOps v2 für Machine Learning ist das klassische Machine Learning-Szenario für tabellarische Daten. Die CV- und NLP-Architekturen basieren auf dieser Basisarchitektur und ändern diese Basisarchitektur.

Aktuelle Architekturen

Die derzeit von MLOps v2 behandelten Architekturen und die in diesem Artikel erläuterten Architekturen sind:

Klassische Azure Machine Learning-Architektur
CV-Architektur für Machine Learning
NLP-Architektur für Machine Learning

Klassische Machine Learning-Architektur

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow für die klassische Machine Learning-Architektur

Datenbestand

Dieses Element veranschaulicht den Datenbestand der Organisation und potenzielle Datenquellen und -ziele für ein Data Science-Projekt. Datentechniker sind die primären Besitzer dieses Elements des MLOps v2-Lebenszyklus. Die Azure-Datenplattformen in diesem Diagramm sind weder vollständig noch präskriptiv. Die Datenquellen und -ziele, die empfohlene bewährte Methoden basierend auf dem Kundenverwendungsfall darstellen, werden durch ein grünes Häkchen angegeben.
Verwaltung und Einrichtung

Dieses Element ist der erste Schritt in der MLOps v2 Accelerator-Bereitstellung. Es besteht aus allen Aufgaben im Zusammenhang mit der Erstellung und Verwaltung von Ressourcen und Rollen, die dem Projekt zugeordnet sind. Dies kann die folgenden Aufgaben und vielleicht andere umfassen:
1. Erstellen von Projekt-Quellcode-Repositorys
2. Erstellen von Machine Learning-Arbeitsbereichen mithilfe von Bicep oder Terraform
3. Erstellen oder Ändern von Datasets und Berechnen von Ressourcen, die für die Modellentwicklung und -bereitstellung verwendet werden
4. Definition von Projektteambenutzern, deren Rollen und Zugriffssteuerelementen für andere Ressourcen
5. Erstellung von CI/CD-Pipelines
6. Erstellen von Monitoren für die Sammlung und Benachrichtigung von Modell- und Infrastrukturmetriken
Die primäre Persona, die dieser Phase zugeordnet ist, ist das Infrastrukturteam, aber es können auch Datentechniker, Machine Learning-Techniker und Datenwissenschaftler sein.
Modellentwicklung (innere Schleife)

Das innere Schleifenelement besteht aus seinem iterativen Data Science-Workflow, der innerhalb eines dedizierten, sicheren Machine Learning-Arbeitsbereichs fungiert. Ein typischer Workflow wird im Diagramm dargestellt. Es geht von Datenerfassung, explorativer Datenanalyse, Experimentieren, Modellentwicklung und -auswertung, zur Registrierung eines Kandidatenmodells für die Produktion. Dieses modulare Element, das im MLOps v2 Accelerator implementiert wird, ist agnostisch und anpassungsfähig für den Prozess, den Ihr Data Science-Team verwendet, um Modelle zu entwickeln.

Personas, die dieser Phase zugeordnet sind, umfassen Datenwissenschaftler und Machine Learning-Techniker.
Machine Learning-Registrierungen

Nachdem das Data Science-Team ein Modell entwickelt, das ein Kandidat für die Bereitstellung in der Produktion ist, kann das Modell in der Machine Learning-Arbeitsbereichsregistrierung registriert werden. CI-Pipelines, die entweder automatisch durch die Modellregistrierung oder durch die Genehmigung von Menschen in der Schleife ausgelöst werden, fördern das Modell und alle anderen Modellabhängigkeiten an die Modellbereitstellungsphase.

Personas, die dieser Phase zugeordnet sind, sind in der Regel Machine Learning-Techniker.
Modellimplementierung (äußere Schleife)

Die Modellbereitstellungs- oder äußere Schleifenphase besteht aus vorproduktivem Staging und Test, der Produktionsbereitstellung und der Überwachung von Modell, Daten und Infrastruktur. CD-Pipelines verwalten die Förderung des Modells und verwandter Ressourcen über die Produktion, Überwachung und potenzielle Weiterbildung, da Kriterien, die für Ihre Organisation geeignet sind, für den Einsatzfall erfüllt sind.

Personas, die dieser Phase zugeordnet sind, sind in erster Linie Machine Learning-Techniker.
Staging und Test

Die Staging- und Testphase kann sich je nach Kundenpraktiken unterscheiden, umfasst in der Regel Vorgänge wie die Umschulung und Prüfung des Modellkandidaten auf Produktionsdaten, Testbereitstellungen für Endpunktleistung, Datenqualitätsprüfungen, Komponententests und verantwortungsvolle KI-Prüfungen für Modell- und Datenverzerrungen. Diese Phase erfolgt in einem oder mehreren dedizierten, sicheren Machine Learning-Arbeitsbereichen.
Produktionsbereitstellung

Nachdem ein Modell die Staging- und Testphase übergibt, kann es durch Verwendung einer Human-in-the-Loop-Genehmigung auf die Produktion gefördert werden. Die Modellbereitstellungsoptionen umfassen einen verwalteten Batchendpunkt für Batchszenarien oder für Onlineszenarien, entweder einen verwalteten Onlineendpunkt oder eine Kubernetes-Bereitstellung mithilfe von Azure Arc. Die Produktion erfolgt in der Regel in einem oder mehreren dedizierten, sicheren Machine Learning-Arbeitsbereichen.
Überwachung

Die Überwachung im Staging, dem Test und der Produktion ermöglicht es dir, Metriken für die Leistung des Modells, der Daten und der Infrastruktur zu sammeln und zu handeln. Modell- und Datenüberwachung können die Überprüfung auf Modell- und Datendrift, die Modellleistung für neue Daten und verantwortungsvolle KI-Probleme umfassen. Die Infrastrukturüberwachung kann langsame Endpunktantworten, unzureichende Berechnungskapazität oder Netzwerkprobleme überwachen.
Daten- und Modellüberwachung: Ereignisse und Aktionen

Basierend auf Kriterien für Modell- und Datenfragen, so wie metrische Schwellenwerte oder Terminpläne, können automatisierte Trigger und Benachrichtigungen geeignete Maßnahmen implementieren, die ausgeführt werden sollen. Dies kann regelmäßig geplante automatisierte Umschulung des Modells auf neueren Produktionsdaten und ein Loopback zum Staging und Test für die Vorabproduktionsbewertung erfolgen. Oder es kann aufgrund von Triggern für Modell- oder Datenprobleme sein, die einen Loopback in die Modellentwicklungsphase erfordern, in der Datenwissenschaftler ein neues Modell untersuchen und möglicherweise entwickeln können.
Infrastrukturüberwachung: Ereignisse und Aktionen

Basierend auf Kriterien für Infrastrukturfragen, so wie Endpunktantwortverzögerung oder unzureichende Berechnung für die Bereitstellung, können automatisierte Trigger und Benachrichtigungen geeignete Maßnahmen implementieren, die ausgeführt werden sollen. Sie lösen einen Loopback in die Setup- und Verwaltungsphase aus, in der das Infrastrukturteam die Berechnungs- und Netzwerkressourcen untersuchen und potenziell neu konfigurieren kann.

CV-Architektur für Machine Learning

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow für die CV-Architektur

Die CV-Architektur für Machine Learning basiert auf der klassischen Machine Learning-Architektur, beinhaltet jedoch Änderungen, die speziell für überwachte CV-Szenarien gelten.

Datenbestand

Dieses Element veranschaulicht den Datenbestand der Organisation und potenzielle Datenquellen und -ziele für ein Data Science-Projekt. Datentechniker sind die primären Besitzer dieses Elements des MLOps v2-Lebenszyklus. Die Azure-Datenplattformen in diesem Diagramm sind weder vollständig noch präskriptiv. Bilder für CV-Szenarien können aus vielen verschiedenen Datenquellen stammen. Zur Effizienz beim Entwickeln und Bereitstellen von CV-Modellen mit Machine Learning sind empfohlene Azure-Datenquellen für Bilder Azure Blob Storage und Azure Data Lake Storage.
Verwaltung und Einrichtung

Dieses Element ist der erste Schritt in der MLOps v2 Accelerator-Bereitstellung. Es besteht aus allen Aufgaben im Zusammenhang mit der Erstellung und Verwaltung von Ressourcen und Rollen, die dem Projekt zugeordnet sind. Für CV-Szenarien ist die Verwaltung und Einrichtung der MLOps v2-Umgebung weitgehend identisch mit klassischem maschinellem Lernen, aber mit einem zusätzlichen Schritt: Erstellen von Bildbeschriftungs- und Anmerkungsprojekten mithilfe der Bezeichnungsfunktion von Machine Learning oder einem anderen Tool.
Modellentwicklung (innere Schleife)

Das innere Schleifenelement besteht aus seinem iterativen Data Science-Workflow, der innerhalb eines dedizierten, sicheren Machine Learning-Arbeitsbereichs ausgeführt wird. Der Hauptunterschied zwischen diesem Workflow und dem klassischen Machine Learning-Szenario besteht darin, dass die Bildbezeichnung und Anmerkung ein wichtiges Element dieser Entwicklungsschleife ist.
Machine Learning-Registrierungen

Nachdem das Data Science-Team ein Modell entwickelt, das ein Kandidat für die Bereitstellung in der Produktion ist, kann das Modell in der Machine Learning-Arbeitsbereichsregistrierung registriert werden. CI-Pipelines, die entweder automatisch durch die Modellregistrierung oder durch die Genehmigung von Menschen in der Schleife ausgelöst werden, fördern das Modell und alle anderen Modellabhängigkeiten an die Modellbereitstellungsphase.
Modellimplementierung (äußere Schleife)

Die Modellbereitstellungs- oder äußere Schleifenphase besteht aus vorproduktivem Staging und Test, der Produktionsbereitstellung und der Überwachung von Modell, Daten und Infrastruktur. CD-Pipelines verwalten die Förderung des Modells und verwandter Ressourcen über die Produktion, Überwachung und potenzielle Weiterbildung, da Kriterien, die für Ihre Organisation geeignet sind, für den Einsatzfall erfüllt sind.
Staging und Test

Die Staging- und Testphase kann sich je nach Kundenpraktiken unterscheiden, umfasst in der Regel Vorgänge wie Testbereitstellungen, Datenqualitätsprüfungen, Komponententests und verantwortungsvolle KI-Prüfungen für Modell- und Datenverzerrungen. Für CV-Szenarien kann die Neuschulung des Modellkandidaten für Produktionsdaten aufgrund von Ressourcen- und Zeitbeschränkungen weggelassen werden. Stattdessen kann das Data Science-Team Produktionsdaten für die Modellentwicklung verwenden, und das Kandidatenmodell, das aus der Entwicklungsschleife registriert ist, ist das Modell, das für die Produktion ausgewertet wird. Diese Phase erfolgt in einem oder mehreren dedizierten, sicheren Machine Learning-Arbeitsbereichen.
Produktionsbereitstellung

Nachdem ein Modell die Staging- und Testphase übergibt, kann er durch Verwendung einer Human-in-the-Loop-Genehmigung auf die Produktion gefördert werden. Die Modellbereitstellungsoptionen umfassen einen verwalteten Batchendpunkt für Batchszenarien oder für Onlineszenarien, entweder einen verwalteten Onlineendpunkt oder eine Kubernetes-Bereitstellung mithilfe von Azure Arc. Die Produktion erfolgt in der Regel in einem oder mehreren dedizierten, sicheren Machine Learning-Arbeitsbereichen.
Überwachung

Die Überwachung in Staging, Test und Produktion ermöglicht es dir, Metriken für die Leistung des Modells, der Daten und der Infrastruktur zu sammeln und zu handeln. Modell- und Datenüberwachung kann die Überprüfung der Modellleistung auf neuen Bildern umfassen. Die Infrastrukturüberwachung kann langsame Endpunktantworten, unzureichende Berechnungskapazität oder Netzwerkprobleme überwachen.
Daten- und Modellüberwachung: Ereignisse und Aktionen

Die Daten- und Modellüberwachung und Ereignis- und Aktionsphasen von MLOps für NLP sind die wichtigsten Unterschiede zum klassischen maschinellen Lernen. Die automatisierte Neuschulung erfolgt in der Regel nicht in CV-Szenarien, wenn die Leistungsverschlechterung der Modellleistung bei neuen Bildern erkannt wird. In diesem Fall müssen neue Bilder, für die das Modell schlecht ausgeführt wird, von einem Human-in-the-loop-Prozess überprüft und kommentiert werden, und häufig geht die nächste Aktion zurück zur Modellentwicklungsschleife, um das Modell mit den neuen Bildern zu aktualisieren.
Infrastrukturüberwachung: Ereignisse und Aktionen

Basierend auf Kriterien für Infrastrukturfragen, so wie Endpunktantwortverzögerung oder unzureichende Berechnung für die Bereitstellung, können automatisierte Trigger und Benachrichtigungen geeignete Maßnahmen implementieren, die ausgeführt werden sollen. Sie lösen einen Loopback in die Setup- und Verwaltungsphase aus, in der das Infrastrukturteam die Berechnungs- und Netzwerkressourcen untersuchen und potenziell neu konfigurieren kann.

NLP-Architektur für Machine Learning

Laden Sie eine Visio-Datei dieser Architektur herunter.

Workflow für die NLP-Architektur

Die CV-Architektur für Machine Learning basiert auf der klassischen Machine Learning-Architektur, beinhaltet jedoch Änderungen, die speziell für überwachte CV-Szenarien gelten.

Datenbestand

Dieses Element veranschaulicht den Datenbestand der Organisation und potenzielle Datenquellen und -ziele für ein Data Science-Projekt. Datentechniker sind die primären Besitzer dieses Elements des MLOps v2-Lebenszyklus. Die Azure-Datenplattformen in diesem Diagramm sind weder vollständig noch präskriptiv. Die Datenquellen und -ziele, die empfohlene bewährte Methoden basierend auf dem Kundenverwendungsfall darstellen, werden durch ein grünes Häkchen angegeben.
Verwaltung und Einrichtung

Dieses Element ist der erste Schritt in der MLOps v2 Accelerator-Bereitstellung. Es besteht aus allen Aufgaben im Zusammenhang mit der Erstellung und Verwaltung von Ressourcen und Rollen, die dem Projekt zugeordnet sind. Für NLP-Szenarien ist die Verwaltung und Einrichtung der MLOps v2-Umgebung weitgehend identisch mit klassischem maschinellen Lernen, aber mit einem zusätzlichen Schritt: Erstellen von Bildbeschriftungs- und Anmerkungsprojekten mithilfe der Bezeichnungsfunktion von Machine Learning oder einem anderen Tool.
Modellentwicklung (innere Schleife)

Das innere Schleifenelement besteht aus seinem iterativen Data Science-Workflow, der innerhalb eines dedizierten, sicheren Machine Learning-Arbeitsbereichs ausgeführt wird. Die typische NLP-Modellentwicklungsschleife kann sich erheblich von dem klassischen Machine Learning-Szenario unterscheiden, in dem Kommentatoren für Sätze und Tokenisierung, Normalisierung und Einbettungen für Textdaten die typischen Entwicklungsschritte für dieses Szenario sind.
Machine Learning-Registrierungen

Nachdem das Data Science-Team ein Modell entwickelt, das ein Kandidat für die Bereitstellung in der Produktion ist, kann das Modell in der Machine Learning-Arbeitsbereichsregistrierung registriert werden. CI-Pipelines, die entweder automatisch durch die Modellregistrierung oder durch die Genehmigung von Menschen in der Schleife ausgelöst werden, fördern das Modell und alle anderen Modellabhängigkeiten an die Modellbereitstellungsphase.
Modellimplementierung (äußere Schleife)

Die Modellbereitstellungs- oder äußere Schleifenphase besteht aus vorproduktivem Staging und Tests, der Produktionsbereitstellung und der Überwachung von Modell, Daten und Infrastruktur. CD-Pipelines verwalten die Förderung des Modells und verwandter Ressourcen über die Produktion, Überwachung und potenzielle Weiterbildung, da Kriterien, die für Ihre Organisation und den Einsatzfall erfüllt sind.
Staging und Test

Die Staging- und Testphase kann sich je nach Kundenpraktiken unterscheiden, umfasst in der Regel Vorgänge wie die Umschulung und Prüfung des Modellkandidaten auf Produktionsdaten, Testbereitstellungen für Endpunktleistung, Datenqualitätsprüfungen, Komponententests und verantwortungsvolle KI-Prüfungen für Modell- und Datenverzerrungen. Diese Phase erfolgt in einem oder mehreren dedizierten, sicheren Machine Learning-Arbeitsbereichen.
Produktionsbereitstellung

Nachdem ein Modell die Staging- und Testphase übergibt, kann er durch Verwendung einer Human-in-the-Loop-Genehmigung auf die Produktion gefördert werden. Die Modellbereitstellungsoptionen umfassen einen verwalteten Batchendpunkt für Batchszenarien oder für Onlineszenarien, entweder einen verwalteten Onlineendpunkt oder eine Kubernetes-Bereitstellung mithilfe von Azure Arc. Die Produktion erfolgt in der Regel in einem oder mehreren dedizierten, sicheren Machine Learning-Arbeitsbereichen.
Überwachung

Die Überwachung im Staging, dem Test und der Produktion ermöglicht es dir, Metriken für die Leistung des Modells, der Daten und der Infrastruktur zu sammeln und zu handeln. Modell- und Datenüberwachung können die Überprüfung auf Modell- und Datendrift, die Modellleistung für neue Daten und verantwortungsvolle KI-Probleme umfassen. Die Infrastrukturüberwachung kann Probleme wie langsame Endpunktantworten, unzureichende Berechnungskapazität oder Netzwerkprobleme überwachen.
Daten- und Modellüberwachung: Ereignisse und Aktionen

Wie in der CV-Architektur sind die Daten- und Modellüberwachung und Ereignis- und Aktionsphasen von MLOps für NLP die wichtigsten Unterschiede zum klassischem maschinellem Lernen. Die automatisierte Neuschulung erfolgt in der Regel nicht in NLP-Szenarien, wenn die Leistungsverschlechterung der Modellleistung bei neuen Bildern erkannt wird. In diesem Fall müssen neue Textdaten, für die das Modell schlecht ausgeführt wird, von einem Human-in-the-Loop-Prozess überprüft und kommentiert werden. Häufig besteht die nächste Aktion darin, zur Modellentwicklungsschleife zurückzukehren, um das Modell mit den neuen Textdaten zu aktualisieren.
Infrastrukturüberwachung: Ereignisse und Aktionen

Basierend auf Kriterien für Infrastrukturfragen, so wie Endpunktantwortverzögerung oder unzureichende Berechnung für die Bereitstellung, können automatisierte Trigger und Benachrichtigungen geeignete Maßnahmen implementieren, die ausgeführt werden sollen. Sie lösen einen Loopback in die Setup- und Verwaltungsphase aus, in der das Infrastrukturteam die Berechnungs- und Netzwerkressourcen untersuchen und potenziell neu konfigurieren kann.

Komponenten

Machine Learning: Ein Clouddienst für das bedarfsorientierte Trainieren, Bewerten, Bereitstellen und Verwalten von Machine Learning-Modellen.
Azure Pipelines: Das Build- und Testsystem basiert auf Azure DevOps und wird für die Erstellung und Freigabe von Pipelines verwendet. Azure Pipelines unterteilt diese Pipelines in logische Schritte, die als Aufgaben bezeichnet werden.
GitHub: Eine Codehostingplattform für Versionsverwaltung, Zusammenarbeit und CI/CD-Workflows.
Azure Arc: Eine Plattform zum Verwalten von Azure- und lokalen Ressourcen mithilfe von Azure Resource Manager. Die Ressourcen können virtuelle Computer, Kubernetes-Cluster und Datenbanken enthalten.
Kubernetes: Ein Open-Source-System für die Automatisierung der Bereitstellung, Skalierung und Verwaltung von Containeranwendungen.
Azure Data Lake: Ein Hadoop-kompatibles Dateisystem. Es verfügt über einen integrierten hierarchischen Namespace und die enorme Staffelung und Wirtschaftlichkeit von Azure Blob Storage.
Azure Synapse Analytics: Ein uneingeschränkter Analysedienst, der Datenintegration, Data Warehousing für Unternehmen und Big Data-Analysen vereint.
Azure Event Hubs: Ein Dienst, der Datenströme erfasst, die von Clientanwendungen generiert werden. Anschließend erfassen und speichern sie Streamingdaten, wobei die Abfolge der empfangenen Ereignisse beibehalten wird. Consumer können eine Verbindung mit den Hubendpunkten herstellen, um Nachrichten zur Verarbeitung abzurufen. Hier nutzen wir die Integration mit Data Lake Storage.

Beitragende

Dieser Artikel wird von Microsoft gepflegt. Er wurde ursprünglich von folgenden Mitwirkenden geschrieben:

Hauptautoren:

Scott Donohoo | Senior Cloud Solution Architect
Moritz Steller | Senior Cloud Solution Architect

Melden Sie sich bei LinkedIn an, um nicht öffentliche LinkedIn-Profile anzuzeigen.

Machine Learning-Vorgänge (MLOps) v2

Mögliche Anwendungsfälle