Überwachen von Azure Machine LearningMonitor Azure Machine Learning

Wenn Sie über unternehmenskritische Anwendungen und Geschäftsprozesse verfügen, die auf Azure-Ressourcen beruhen, sollten Sie Verfügbarkeit, Leistung und Betrieb dieser Ressourcen überwachen.When you have critical applications and business processes relying on Azure resources, you want to monitor those resources for their availability, performance, and operation. In diesem Artikel wird das Überwachen von Daten beschrieben, die von Azure Machine Learning generiert werden. Außerdem erfahren Sie, wie Sie diese Daten mit Azure Monitor analysieren und Warnungen für diese erstellen.This article describes the monitoring data generated by Azure Machine Learning and how to analyze and alert on this data with Azure Monitor.

Tipp

Die Informationen in diesem Dokument richten sich in erster Linie an Administratoren, da hier die Überwachung für Azure Machine Learning Service und zugehörige Azure-Dienste beschrieben wird.The information in this document is primarily for administrators, as it describes monitoring for the Azure Machine Learning service and associated Azure services. Wenn Sie Datenanalyst oder Entwickler sind und spezifische Informationen zu Ihren Modelltrainingsausführungen überwachen möchten, sehen Sie sich die folgenden Artikel an:If you are a data scientist or developer, and want to monitor information specific to your model training runs, see the following documents:

Wenn Sie Informationen überwachen möchten, die von Modellen generiert werden, die als Webdienste oder IoT Edge-Module bereitgestellt werden, finden Sie weitere Informationen unter Sammeln von Modelldaten und Überwachen mit Application Insights.If you want to monitor information generated by models deployed as web services or IoT Edge modules, see Collect model data and Monitor with Application Insights.

Was ist Azure Monitor?What is Azure Monitor?

Azure Machine Learning erstellt Überwachungsdaten mit Azure Monitor, wobei es sich um einen Azure-Dienst zur vollständigen Stapelüberwachung handelt.Azure Machine Learning creates monitoring data using Azure Monitor, which is a full stack monitoring service in Azure. Azure Monitor bietet einen vollständigen Satz von Funktionen zum Überwachen Ihrer Azure-Ressourcen.Azure Monitor provides a complete set of features to monitor your Azure resources. Mit Azure Monitor können außerdem Ressourcen in anderen Clouds und lokal überwacht werden.It can also monitor resources in other clouds and on-premises.

Beginnen Sie mit dem Artikel Überwachen von Azure-Ressourcen mit Azure Monitor, in dem die folgenden Konzepte beschrieben werden:Start with the article Monitoring Azure resources with Azure Monitor, which describes the following concepts:

  • Was ist Azure Monitor?What is Azure Monitor?
  • Kosten für die ÜberwachungCosts associated with monitoring
  • In Azure gesammelte ÜberwachungsdatenMonitoring data collected in Azure
  • Konfigurieren der DatensammlungConfiguring data collection
  • Standardtools in Azure zum Analysieren von Überwachungsdaten sowie zum Generieren von WarnungenStandard tools in Azure for analyzing and alerting on monitoring data

Die folgenden Abschnitte bauen auf diesem Artikel auf, indem die spezifischen Daten beschrieben werden, die für Azure Machine Learning erfasst werden.The following sections build on this article by describing the specific data gathered for Azure Machine Learning. In diesen Abschnitten finden Sie außerdem Beispiele für die Konfiguration der Datensammlung und die Analyse der Daten mit Azure-Tools.These sections also provide examples for configuring data collection and analyzing this data with Azure tools.

Tipp

Informationen zu den mit Azure Monitor verbundenen Kosten finden Sie unter Überwachen der Nutzung und geschätzten Kosten in Azure Monitor.To understand costs associated with Azure Monitor, see Usage and estimated costs. Informationen hinsichtlich der Zeit, die benötigt wird, bis Ihre Daten in Azure Monitor angezeigt werden, finden Sie unter Protokolldatenerfassungszeit in Azure Monitor.To understand the time it takes for your data to appear in Azure Monitor, see Log data ingestion time.

Überwachen von Daten aus Azure Machine LearningMonitoring data from Azure Machine Learning

Azure Machine Learning erfasst dieselben Arten von Überwachungsdaten wie andere Azure-Ressourcen, die unter Überwachen von Daten aus Azure-Ressourcen beschrieben werden.Azure Machine Learning collects the same kinds of monitoring data as other Azure resources that are described in Monitoring data from Azure resources.

Eine ausführliche Referenz zu den Protokollen und Metriken, die von Azure Machine Learning erstellt werden, finden Sie unter Überwachen von Azure Machine Learning-Daten – Referenz.See Azure Machine Learning monitoring data reference for a detailed reference of the logs and metrics created by Azure Machine Learning.

Sammlung und RoutingCollection and routing

Plattformmetriken und das Aktivitätsprotokoll werden automatisch erfasst und gespeichert, können jedoch mithilfe einer Diagnoseeinstellung an andere Speicherorte weitergeleitet werden.Platform metrics and the Activity log are collected and stored automatically, but can be routed to other locations by using a diagnostic setting.

Ressourcenprotokolle werden erst erfasst und gespeichert, sobald Sie eine Diagnoseeinstellung erstellt und an einen oder mehrere Standorte weitergeleitet haben.Resource Logs are not collected and stored until you create a diagnostic setting and route them to one or more locations.

Ausführliche Informationen zum Erstellen einer Diagnoseeinstellung über das Azure-Portal, die Befehlszeilenschnittstelle oder PowerShell finden Sie unter Erstellen einer Diagnoseeinstellung zum Sammeln von Plattformprotokollen und Metriken in Azure.See Create diagnostic setting to collect platform logs and metrics in Azure for the detailed process for creating a diagnostic setting using the Azure portal, CLI, or PowerShell. Wenn Sie eine Diagnoseeinstellung erstellen, legen Sie fest, welche Kategorien von Protokollen gesammelt werden sollen.When you create a diagnostic setting, you specify which categories of logs to collect. Eine Liste der Kategorien für Azure Machine Learning finden Sie in der Referenz zu Azure Machine Learning-Überwachungsdaten.The categories for Azure Machine Learning are listed in Azure Machine Learning monitoring data reference.

Wichtig

Ein Aktivieren dieser Einstellungen erfordert zusätzliche Azure-Dienste (Speicherkonto, Event Hub oder Log Analytics). Dadurch können sich Ihre Kosten erhöhen.Enabling these settings requires additional Azure services (storage account, event hub, or Log Analytics), which may increase your cost. Um geschätzte Kosten zu berechnen, wechseln Sie zum Azure-Preisrechner.To calculate an estimated cost, visit the Azure pricing calculator.

Sie können die folgenden Protokolle für Azure Machine Learning konfigurieren:You can configure the following logs for Azure Machine Learning:

KategorieCategory BESCHREIBUNGDescription
AmlComputeClusterEventAmlComputeClusterEvent Ereignisse von Azure Machine Learning-ComputeclusternEvents from Azure Machine Learning compute clusters.
AmlComputeClusterNodeEventAmlComputeClusterNodeEvent Ereignisse von Knoten in einem Azure Machine Learning-ComputeclusterEvents from nodes within an Azure Machine Learning compute cluster.
AmlComputeJobEventAmlComputeJobEvent Ereignisse von Knoten, die in Azure Machine Learning-Compute ausgeführt werdenEvents from jobs running on Azure Machine Learning compute.

Hinweis

Wenn Sie Metriken in einer Diagnoseeinstellung aktivieren, sind Dimensionsinformationen derzeit nicht in den Informationen enthalten, die an ein Speicherkonto, an einen Event Hub oder an Log Analytics gesendet werden.When you enable metrics in a diagnostic setting, dimension information is not currently included as part of the information sent to a storage account, event hub, or log analytics.

In den folgenden Abschnitten werden die Metriken und Protokolle behandelt, die Sie erfassen können.The metrics and logs you can collect are discussed in the following sections.

Analysieren von MetrikenAnalyzing metrics

Sie können Metriken für Azure Machine Learning mit Metriken von anderen Azure-Diensten analysieren, indem Sie Metriken über das Menü Azure Monitor öffnen.You can analyze metrics for Azure Machine Learning, along with metrics from other Azure services, by opening Metrics from the Azure Monitor menu. Ausführliche Informationen zur Verwendung dieses Tools finden Sie unter Erste Schritte mit dem Azure-Metrik-Explorer.See Getting started with Azure Metrics Explorer for details on using this tool.

Eine Liste der erfassten Plattformmetriken finden Sie in der Referenz zur Überwachung von Azure Machine Learning-Datenmetriken.For a list of the platform metrics collected, see Monitoring Azure Machine Learning data reference metrics.

Alle Metriken für Azure Machine Learning befinden sich im Namespace Machine Learning Service-Arbeitsbereich.All metrics for Azure Machine Learning are in the namespace Machine Learning Service Workspace.

Metrik-Explorer mit ausgewähltem Machine Learning Service-Arbeitsbereich

Sie können zur Referenz auf eine Liste aller in Azure Monitor unterstützter Ressourcenmetriken anzeigen.For reference, you can see a list of all resource metrics supported in Azure Monitor.

Tipp

Metrikdaten stehen in Azure Monitor 90 Tage zur Verfügung.Azure Monitor metrics data is available for 90 days. Beim Erstellen von Diagrammen können jedoch nur 30 Tage visualisiert werden.However, when creating charts only 30 days can be visualized. Wenn Sie z. B. einen 90-tägigen Zeitraum visualisieren möchten, müssen Sie ihn in drei Diagramme mit jeweils 30 Tagen in diesem 90-Tage-Zeitraum aufteilen.For example, if you want to visualize a 90 day period, you must break it into three charts of 30 days within the 90 day period.

Filtern und TeilenFiltering and splitting

Für Metriken, die Dimensionen unterstützen, können Sie Filter mit einem Dimensionswert anwenden.For metrics that support dimensions, you can apply filters using a dimension value. Beispielsweise können Sie Active Cores (Aktive Kerne) nach dem Clusternamencpu-cluster filtern.For example, filtering Active Cores for a Cluster Name of cpu-cluster.

Sie können eine Metrik auch nach Dimension teilen, um visuell darzustellen, wie verschiedene Segmente der Metrik miteinander zu vergleichen sind.You can also split a metric by dimension to visualize how different segments of the metric compare with each other. Beispielsweise können Sie den Pipeline Step Type (Pipelineschritttyp) teilen, um die Anzahl der in der Pipeline verwendeten Typen von Schritten anzuzeigen.For example, splitting out the Pipeline Step Type to see a count of the types of steps used in the pipeline.

Weitere Informationen zum Filtern und Teilen finden Sie unter Erweiterte Funktionen von Azure Metrik-Explorer.For more information of filtering and splitting, see Advanced features of Azure Monitor.

Analysieren von ProtokollenAnalyzing logs

Um Azure Monitor Log Analytics verwenden zu können, müssen Sie eine Diagnosekonfiguration erstellen und Send information to Log Analytics (Informationen an Log Analytics senden) aktivieren.Using Azure Monitor Log Analytics requires you to create a diagnostic configuration and enable Send information to Log Analytics. Weitere Informationen finden Sie im Abschnitt Erfassung und Weiterleitung.For more information, see the Collection and routing section.

Daten in Azure Monitor-Protokollen werden in Tabellen gespeichert, wobei jede Tabelle ihren eigenen Satz eindeutiger Eigenschaften hat.Data in Azure Monitor Logs is stored in tables, with each table having its own set of unique properties. In Azure Machine Learning werden Daten in den folgenden Tabellen gespeichert:Azure Machine Learning stores data in the following tables:

TabelleTable BeschreibungDescription
AmlComputeClusterEventAmlComputeClusterEvent Ereignisse von Azure Machine Learning-ComputeclusternEvents from Azure Machine Learning compute clusters.
AmlComputeClusterNodeEventAmlComputeClusterNodeEvent Ereignisse von Knoten in einem Azure Machine Learning-ComputeclusterEvents from nodes within an Azure Machine Learning compute cluster.
AmlComputeJobEventAmlComputeJobEvent Ereignisse von Knoten, die in Azure Machine Learning-Compute ausgeführt werdenEvents from jobs running on Azure Machine Learning compute.

Wichtig

Wenn Sie Protokolle im Menü von Azure Machine Learning auswählen, wird Log Analytics geöffnet, wobei der Abfragebereich auf den aktuellen Arbeitsbereich festgelegt ist.When you select Logs from the Azure Machine Learning menu, Log Analytics is opened with the query scope set to the current workspace. Dies bedeutet, dass Protokollabfragen nur Daten aus dieser Ressource umfassen.This means that log queries will only include data from that resource. Wenn Sie eine Abfrage ausführen möchten, die Daten aus anderen Datenbanken oder Daten aus anderen Azure-Diensten enthält, wählen Sie im Menü Azure Monitor die Option Protokolle aus.If you want to run a query that includes data from other databases or data from other Azure services, select Logs from the Azure Monitor menu. Ausführliche Informationen finden Sie unter Protokollabfragebereich und Zeitbereich in Azure Monitor Log Analytics.See Log query scope and time range in Azure Monitor Log Analytics for details.

Eine ausführliche Referenz zu den Protokollen und Metriken finden Sie unter Überwachen von Azure Machine Learning-Daten – Referenz.For a detailed reference of the logs and metrics, see Azure Machine Learning monitoring data reference.

Kusto-BeispielabfragenSample Kusto queries

Wichtig

Wenn Sie Protokolle im [service-name]-Menü auswählen, wird Log Analytics geöffnet, wobei der Abfragebereich auf den aktuellen Azure Machine Learning-Arbeitsbereich festgelegt ist.When you select Logs from the [service-name] menu, Log Analytics is opened with the query scope set to the current Azure Machine Learning workspace. Dies bedeutet, dass Protokollabfragen nur Daten aus dieser Ressource umfassen.This means that log queries will only include data from that resource. Wenn Sie eine Abfrage ausführen möchten, die Daten aus anderen Arbeitsbereichen oder anderen Azure-Diensten enthält, klicken Sie im Menü Azure Monitor auf Protokolle.If you want to run a query that includes data from other workspaces or data from other Azure services, select Logs from the Azure Monitor menu. Ausführliche Informationen finden Sie unter Protokollabfragebereich und Zeitbereich in Azure Monitor Log Analytics.See Log query scope and time range in Azure Monitor Log Analytics for details.

Die folgenden Abfragen sind Abfragen, mit denen Sie Ihre Azure Machine Learning-Ressourcen überwachen können:Following are queries that you can use to help you monitor your Azure Machine Learning resources:

  • Abrufen der Aufträge, die in den letzten fünf Tagen fehlerhaft waren:Get failed jobs in the last five days:

    AmlComputeJobEvent
    | where TimeGenerated > ago(5d) and EventType == "JobFailed"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Abrufen der Datensätze für einen bestimmten Auftragsnamen:Get records for a specific job name:

    AmlComputeJobEvent
    | where JobName == "automl_a9940991-dedb-4262-9763-2fd08b79d8fb_setup"
    | project  TimeGenerated , ClusterId , EventType , ExecutionState , ToolType
    
  • Abrufen von Clusterereignissen, die in den letzten fünf Tagen für Cluster aufgetreten sind, in denen die VM-Größe gleich „Standard_D1_V2“ ist:Get cluster events in the last five days for clusters where the VM size is Standard_D1_V2:

    AmlComputeClusterEvent
    | where TimeGenerated > ago(4d) and VmSize == "STANDARD_D1_V2"
    | project  ClusterName , InitialNodeCount , MaximumNodeCount , QuotaAllocated , QuotaUtilized
    
  • Abrufen der Knoten, die in den letzten acht Tagen zugeordnet wurden:Get nodes allocated in the last eight days:

    AmlComputeClusterNodeEvent
    | where TimeGenerated > ago(8d) and NodeAllocationTime  > ago(8d)
    | distinct NodeId
    

WarnungenAlerts

Sie können auf Warnungen für Azure Machine Learning zugreifen, indem Sie Warnungen über das Azure Monitor-Menü öffnen.You can access alerts for Azure Machine Learning by opening Alerts from the Azure Monitor menu. Ausführliche Informationen zum Erstellen von Warnungen finden Sie unter Erstellen, Anzeigen und Verwalten von Metrikwarnungen mit Azure Monitor.See Create, view, and manage metric alerts using Azure Monitor for details on creating alerts.

In der folgenden Tabelle sind allgemeine und empfohlene Metrikwarnungsregeln für Azure Machine Learning aufgeführt:The following table lists common and recommended metric alert rules for Azure Machine Learning:

WarnungstypAlert type BedingungCondition BeschreibungDescription
Model Deploy Failed (Fehler bei der Modellimplementierung)Model Deploy Failed Aggregationstyp: Total (Gesamt), Operator: Größer als, Schwellenwert: 0Aggregation type: Total, Operator: Greater than, Threshold value: 0 Mindestens eine Modellimplementierung ist fehlgeschlagen.When one or more model deployments have failed
Quota Utilization Percentage (Prozentsatz der Kontingentnutzung)Quota Utilization Percentage Aggregationstyp: Average (Mittelwert), Operator: Größer als, Schwellenwert: 90Aggregation type: Average, Operator: Greater than, Threshold value: 90 Trifft zu, wenn die Kontingentnutzung größer als 90 % ist.When the quota utilization percentage is greater than 90%
Unusable Nodes (Nicht verwendbare Knoten)Unusable Nodes Aggregationstyp: Total (Gesamt), Operator: Größer als, Schwellenwert: 0Aggregation type: Total, Operator: Greater than, Threshold value: 0 Es gibt mindestens einen nicht verwendbaren Knoten.When there are one or more unusable nodes

Nächste SchritteNext steps